Chapter 1 : Introduction to Data Science
Content
Data Science คออะไร
องคประกอบของ data science
ข นตอนการท า data science
5 ระดบของการใช Data Science ในองคกร
Data Science คออะไร? ตางกบ Machine Learning, Data Mining, Data Analysis ยงไง
Data Science คออะไร
Data Science หมายถง การน าขอมลมาใชประโยชน โดยครอบคลมต งแตขนตอนการ
เกบขอมล (Collect) > การจดการขอมล (Manage) > การวเคราะหขอมล
(Analyze) > ไปจนถงขนตอนการน าขอมลมาชวยตดสนใจ (Decision)
Data Science ถาแปลเปนภาษาไทยกคอ “วทยาศาสตรขอมล”
องคประกอบของ data science
องคประกอบของ data science
Computer Science – วทยาการคอมพวเตอร เชน การเขยนโปรแกรม, อลกอรธม,
โครงสรางขอมล (Data Structure)
Maths & Statistics – คณตศาสตร และสถต
Business / Domain Expertise – ความรดานธรกจ
ขนตอนการท า data science
ขนตอนการท า data science
ข นตอนการท า Data Science (Collect > Manage >
Analyze > Decision) เปนภาพกวาง ๆ มาเจาะลกกนวาแตละข นตอนตองท าอะไรกนบาง
เรยก Process นต งแตตนจนจบวา “การน าขอมลมาท าใหเกด
คณคา” หรอ Data Science Value Chain
Data Science ตองท าอะไรบาง
: 1. Collect เกบขอมล
การเกบขอมลสามารถท าไดหลายวธ ซงขนอยกบขอมลทเราตองการเกบ เชน
ถาตองการเกบ Log การใชเวบไซต กอาจจะเขยน JavaScript วางไวในเวบไซตของเรา เพอเกบการกระท าตาง ๆ ของผใช
ถาตองการเกบขอมลจากเวบไซตอน เราตองเขยนโปรแกรมดงขอมลทาง API หรอ Scrape ขอมลจากหนาเวบไซต
Data Science ตองท าอะไรบาง
: 2. Manage จดการขอมล
Data Science ตองท าอะไรบาง
: 2. Manage จดการขอมล
เราตองน าขอมลมาผานการแปรรปใหน ามาใชตอไดงาย หรอเราเรยกข นตอนนวา “การท าความสะอาด
ขอมล” หรอ Data Wrangling / Data Cleaning นนเอง ซงข นตอนนกนเวลาเยอะทสด
ในการท า Data Science
หลงจากท าความสะอาดขอมลเสรจแลว กจดเกบลงฐานขอมล ซงปจจบนมฐานขอมลหลากหลายแบบใหเราเลอกใช เชน
SQL หรอ NoSQL, OLTP หรอ OLAP ฯลฯ กตองเลอกใหถกตอง
นอกจากนนข นตอนนยงตองคอยดเรอง Policy ของบรษท หรอของรฐบาลดวยครบ เชน บรษทอาจจะมนโยบายเกบขอมลยอนหลง 365 วน เรากตองเตรยมสครปตในการลางขอมลเมอถงเวลาทก าหนด
Data Science ตองท าอะไรบาง
3. Analyze วเคราะหขอมล
จากข นตอนทแลว เมอมขอมลพรอมใชเรยบรอย กไดเวลาน ามาวเคราะหเพอหาสงทนาสนใจในขอมล ซงข นอยกบวา
โจทยทตองการแกไขคออะไร แบงไดเปน 2 โจทยหลก ๆ ในการวเคราะหดงน
Finding insights – วเคราะหเพอหาสงทซอนอยในขอมล ส าหรบน ามาใชตดสนใจเรองตาง ๆ ในธรกจ
เชน ยอดขายกางเกงยนสเดอนธนวาคมของ 5 ปทผานมาสงกวาสนคาอน ๆ อยางมาก เรากสามารถปรบแผน
Marketing ใหเหมาะสมได
Modelling – วเคราะหเพอหา Pattern ทซอนอยในขอมล และพยายามสราง Model ส าหรบน ามาใชท านายผล เชน เราพบวายอดขายของไอศกรมมความสมพนธเปนเสนตรงเมอเทยบกบอณหภมเฉลยในแตละ
วน เรากสามารถจดโปรโมชนพเศษในชวงทอากาศหนาวเพอดงดดลกคาเพมขนได
Data Science ตองท าอะไรบาง
4. Decision น าขอมลมาชวยตดสนใจ
ข นตอนน บคลากรทท างาน Data Science มหนาทสรปผลวเคราะหใหเขาใจงาย ๆ เพอ
น าไปเสนอผรวมงานในฝายบรหาร ซงเปนทมาวาท าไมหลายแหงบอกวา Data Scientist
ตองม “ความสามารถในการสอสาร” (Communication Skill)
ในการแสดงผลวเคราะห เราไมจ าเปนตองพดปากเปลาเสมอไป สามารถแสดงเปนรปภาพใหฝายบรหาร
เขาใจงายขนได ความสามารถดาน Data Visualization จะมประโยชนมาก
Data Science ตองท าอะไรบาง
4. Decision น าขอมลมาชวยตดสนใจ
5 ระดบของการใช Data Science ในองคกร
5 ระดบของการใช Data Science ในองคกร
Booz Allen Hamilton ซงเปนบรษทใหค าปรกษาดานเทคโนโลยไดลสตระดบของการใช Data
Science ในองคกรเปน 5 ระดบ เพอใหเรามาดวาเราอยในระดบไหน และจะไปท าอะไรตอไดบาง:
Collect = ระดบแรก คอ เรายงไมท าอะไรเกยวกบ Data เลย กตองหาวธ หาเครองมอในการ “จดเกบ” Data ใหไดกอน
Describe = ระดบทสอง คอ เราม Data แลว กสามารถเอาขอมลมาท าตาราง พลอตกราฟได เพอ “อธบาย” Data ทเราม ส าหรบตอบค าถามทางธรกจเบองตน เชน เดอนไหนขายด เดอนไหนลกคาเยอะ
Discover = ระดบทสาม คอ การ “คนหาความลบ” จากขอมล ขอนจะคลายกบ Describe แตจะ
เปนสงทเราไมเคยคดมากอน ท าใหเรารสกวาวได ซงตองใชเทคนคมากขนในการคนหา เชน การคนพบวาเสอกนหนาว
ขายดแปรผนตรงกบชวงทถงเทาขายด
5 ระดบของการใช Data Science ในองคกร
Predict = ระดบทส คอ การ “ท านาย” อนาคตดวย Data ในอดตทเราม หรอทเราเรยกวา
Business Intelligence นนเอง เชน น าขอมลการขายสนคาท งหมด 10 ปทผานมา เอามาท านายยอดขายปหนา
Advise = ระดบทหา คอ การ “รแจง” ดวย Data เปนระดบทระบบของเราจะฉลาดมาก สามารถแนะน าเราไดวาถาอยากท าใหไดผลก าไรสงสดตองท าอยางไร
Data Science คออะไร? ตางกบ Machine Learning,
Data Mining, Data Analysis ยงไง
Data Science หมายถง การน าขอมลมาใชประโยชน เพอคนหาสงทเราไมร (Insights) ครอบคลมทกอยางทเปนข นตอนในการน าขอมลมาใชประโยชน เชน:
Data Mining คอ การเอาขอมลในอดตมาคนหาแบบแผน (Pattern) เพอน าไปใชท านายผล (Predict) ในอนาคต ตวอยางงาย ๆ เลยกคอ การน าขอมลการซอขายในอดตมาท านายวาอนาคตอะไรจะขายดในชวงไหน
Data Analysis คอ การวเคราะหขอมลโดยใชเทคนคตาง ๆ เพออธบายขอมล ค าน เปนค าทคอนขางกวาง
เทคนคตาง ๆ ทใช กเชน เราอาจจะลองพลอตกราฟ (Data Visualization) หรอเอาไปรน Clustering พวกนสามารถเรยกวาท า Data Analysis ไดท งหมด
Data Science คออะไร? ตางกบ Machine Learning,
Data Mining, Data Analysis ยงไง
Data Science คออะไร? ตางกบ Machine Learning,
Data Mining, Data Analysis ยงไง
Machine Learning คออะไร
ในการท า Data Science หรอ การเอาขอมลมาใชประโยชน ไมสามารถวเคราะหขอมลไดดวยตาคนอยางเดยว ดวยเหตผลขางตน จงน าคอมพวเตอรมาชวย
โดย Machine Learning หมายถง การท าใหคอมพวเตอรสามารถเรยนรดวยตวเองได
ตวอยางการใช Machine Learning ทเราเหนไดในขาวลาสด กเชน AlphaGo คอมพวเตอรเลนโกะทชนะเซยนโกะท วโลก
Reference
Jake VanderPlas. (2016). Python Data Science Handbook.
the United States of America. : O’Reilly Media, Inc.,
https://www.quora.com/
https://blog.datath.com/data-science/