Chapter 1 : Introduction to Data...

Preview:

Citation preview

Chapter 1 : Introduction to Data Science

Content

Data Science คออะไร

องคประกอบของ data science

ข นตอนการท า data science

5 ระดบของการใช Data Science ในองคกร

Data Science คออะไร? ตางกบ Machine Learning, Data Mining, Data Analysis ยงไง

Data Science คออะไร

Data Science หมายถง การน าขอมลมาใชประโยชน โดยครอบคลมต งแตขนตอนการ

เกบขอมล (Collect) > การจดการขอมล (Manage) > การวเคราะหขอมล

(Analyze) > ไปจนถงขนตอนการน าขอมลมาชวยตดสนใจ (Decision)

Data Science ถาแปลเปนภาษาไทยกคอ “วทยาศาสตรขอมล”

องคประกอบของ data science

องคประกอบของ data science

Computer Science – วทยาการคอมพวเตอร เชน การเขยนโปรแกรม, อลกอรธม,

โครงสรางขอมล (Data Structure)

Maths & Statistics – คณตศาสตร และสถต

Business / Domain Expertise – ความรดานธรกจ

ขนตอนการท า data science

ขนตอนการท า data science

ข นตอนการท า Data Science (Collect > Manage >

Analyze > Decision) เปนภาพกวาง ๆ มาเจาะลกกนวาแตละข นตอนตองท าอะไรกนบาง

เรยก Process นต งแตตนจนจบวา “การน าขอมลมาท าใหเกด

คณคา” หรอ Data Science Value Chain

Data Science ตองท าอะไรบาง

: 1. Collect เกบขอมล

การเกบขอมลสามารถท าไดหลายวธ ซงขนอยกบขอมลทเราตองการเกบ เชน

ถาตองการเกบ Log การใชเวบไซต กอาจจะเขยน JavaScript วางไวในเวบไซตของเรา เพอเกบการกระท าตาง ๆ ของผใช

ถาตองการเกบขอมลจากเวบไซตอน เราตองเขยนโปรแกรมดงขอมลทาง API หรอ Scrape ขอมลจากหนาเวบไซต

Data Science ตองท าอะไรบาง

: 2. Manage จดการขอมล

Data Science ตองท าอะไรบาง

: 2. Manage จดการขอมล

เราตองน าขอมลมาผานการแปรรปใหน ามาใชตอไดงาย หรอเราเรยกข นตอนนวา “การท าความสะอาด

ขอมล” หรอ Data Wrangling / Data Cleaning นนเอง ซงข นตอนนกนเวลาเยอะทสด

ในการท า Data Science

หลงจากท าความสะอาดขอมลเสรจแลว กจดเกบลงฐานขอมล ซงปจจบนมฐานขอมลหลากหลายแบบใหเราเลอกใช เชน

SQL หรอ NoSQL, OLTP หรอ OLAP ฯลฯ กตองเลอกใหถกตอง

นอกจากนนข นตอนนยงตองคอยดเรอง Policy ของบรษท หรอของรฐบาลดวยครบ เชน บรษทอาจจะมนโยบายเกบขอมลยอนหลง 365 วน เรากตองเตรยมสครปตในการลางขอมลเมอถงเวลาทก าหนด

Data Science ตองท าอะไรบาง

3. Analyze วเคราะหขอมล

จากข นตอนทแลว เมอมขอมลพรอมใชเรยบรอย กไดเวลาน ามาวเคราะหเพอหาสงทนาสนใจในขอมล ซงข นอยกบวา

โจทยทตองการแกไขคออะไร แบงไดเปน 2 โจทยหลก ๆ ในการวเคราะหดงน

Finding insights – วเคราะหเพอหาสงทซอนอยในขอมล ส าหรบน ามาใชตดสนใจเรองตาง ๆ ในธรกจ

เชน ยอดขายกางเกงยนสเดอนธนวาคมของ 5 ปทผานมาสงกวาสนคาอน ๆ อยางมาก เรากสามารถปรบแผน

Marketing ใหเหมาะสมได

Modelling – วเคราะหเพอหา Pattern ทซอนอยในขอมล และพยายามสราง Model ส าหรบน ามาใชท านายผล เชน เราพบวายอดขายของไอศกรมมความสมพนธเปนเสนตรงเมอเทยบกบอณหภมเฉลยในแตละ

วน เรากสามารถจดโปรโมชนพเศษในชวงทอากาศหนาวเพอดงดดลกคาเพมขนได

Data Science ตองท าอะไรบาง

4. Decision น าขอมลมาชวยตดสนใจ

ข นตอนน บคลากรทท างาน Data Science มหนาทสรปผลวเคราะหใหเขาใจงาย ๆ เพอ

น าไปเสนอผรวมงานในฝายบรหาร ซงเปนทมาวาท าไมหลายแหงบอกวา Data Scientist

ตองม “ความสามารถในการสอสาร” (Communication Skill)

ในการแสดงผลวเคราะห เราไมจ าเปนตองพดปากเปลาเสมอไป สามารถแสดงเปนรปภาพใหฝายบรหาร

เขาใจงายขนได ความสามารถดาน Data Visualization จะมประโยชนมาก

Data Science ตองท าอะไรบาง

4. Decision น าขอมลมาชวยตดสนใจ

5 ระดบของการใช Data Science ในองคกร

5 ระดบของการใช Data Science ในองคกร

Booz Allen Hamilton ซงเปนบรษทใหค าปรกษาดานเทคโนโลยไดลสตระดบของการใช Data

Science ในองคกรเปน 5 ระดบ เพอใหเรามาดวาเราอยในระดบไหน และจะไปท าอะไรตอไดบาง:

Collect = ระดบแรก คอ เรายงไมท าอะไรเกยวกบ Data เลย กตองหาวธ หาเครองมอในการ “จดเกบ” Data ใหไดกอน

Describe = ระดบทสอง คอ เราม Data แลว กสามารถเอาขอมลมาท าตาราง พลอตกราฟได เพอ “อธบาย” Data ทเราม ส าหรบตอบค าถามทางธรกจเบองตน เชน เดอนไหนขายด เดอนไหนลกคาเยอะ

Discover = ระดบทสาม คอ การ “คนหาความลบ” จากขอมล ขอนจะคลายกบ Describe แตจะ

เปนสงทเราไมเคยคดมากอน ท าใหเรารสกวาวได ซงตองใชเทคนคมากขนในการคนหา เชน การคนพบวาเสอกนหนาว

ขายดแปรผนตรงกบชวงทถงเทาขายด

5 ระดบของการใช Data Science ในองคกร

Predict = ระดบทส คอ การ “ท านาย” อนาคตดวย Data ในอดตทเราม หรอทเราเรยกวา

Business Intelligence นนเอง เชน น าขอมลการขายสนคาท งหมด 10 ปทผานมา เอามาท านายยอดขายปหนา

Advise = ระดบทหา คอ การ “รแจง” ดวย Data เปนระดบทระบบของเราจะฉลาดมาก สามารถแนะน าเราไดวาถาอยากท าใหไดผลก าไรสงสดตองท าอยางไร

Data Science คออะไร? ตางกบ Machine Learning,

Data Mining, Data Analysis ยงไง

Data Science หมายถง การน าขอมลมาใชประโยชน เพอคนหาสงทเราไมร (Insights) ครอบคลมทกอยางทเปนข นตอนในการน าขอมลมาใชประโยชน เชน:

Data Mining คอ การเอาขอมลในอดตมาคนหาแบบแผน (Pattern) เพอน าไปใชท านายผล (Predict) ในอนาคต ตวอยางงาย ๆ เลยกคอ การน าขอมลการซอขายในอดตมาท านายวาอนาคตอะไรจะขายดในชวงไหน

Data Analysis คอ การวเคราะหขอมลโดยใชเทคนคตาง ๆ เพออธบายขอมล ค าน เปนค าทคอนขางกวาง

เทคนคตาง ๆ ทใช กเชน เราอาจจะลองพลอตกราฟ (Data Visualization) หรอเอาไปรน Clustering พวกนสามารถเรยกวาท า Data Analysis ไดท งหมด

Data Science คออะไร? ตางกบ Machine Learning,

Data Mining, Data Analysis ยงไง

Data Science คออะไร? ตางกบ Machine Learning,

Data Mining, Data Analysis ยงไง

Machine Learning คออะไร

ในการท า Data Science หรอ การเอาขอมลมาใชประโยชน ไมสามารถวเคราะหขอมลไดดวยตาคนอยางเดยว ดวยเหตผลขางตน จงน าคอมพวเตอรมาชวย

โดย Machine Learning หมายถง การท าใหคอมพวเตอรสามารถเรยนรดวยตวเองได

ตวอยางการใช Machine Learning ทเราเหนไดในขาวลาสด กเชน AlphaGo คอมพวเตอรเลนโกะทชนะเซยนโกะท วโลก

Reference

Jake VanderPlas. (2016). Python Data Science Handbook.

the United States of America. : O’Reilly Media, Inc.,

https://www.quora.com/

https://blog.datath.com/data-science/

Recommended