View
3
Download
0
Category
Preview:
Citation preview
Chapter 1Introduction to Data miningอาจารยอนพงศ สขประเสรฐคณะการบญชและการจดการมหาวทยาลยมหาสารคาม
2
Content Data Mining คออะไร ววฒนาการของการท าเหมองขอมล ขนตอนการท าเหมองขอมล สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล ประเภทของขอมลทสามารถท า Data Mining ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล ตวอยางการน าเหมองขอมลมาใช Data Mining ประโยชนของเหมองขอมล
Data Mining คออะไร
Data Mining เปนกระบวนการ (Process) ทกระท ากบขอมลขนาดใหญ เพอ
คนหารปแบบ แนวทาง และความสมพนธทซอนอยในชดขอมลนน โดยอาศยหลกสถต
การรจ า การเรยนรของเครอง และหลกคณตศาสตร เพอใหไดสารสนเทศทเราไมร
ออกมา โดยสารสนเทศทไดจะมเหตผลและสามารถน าไปใชประโยชนได
Data Mining คออะไร
ลกษณะการท างานของ Data Mining คลายกบกระบวนการ
Knowledge Discovery in Databases : KDD เปนการสบคน
ความรทเปนประโยชนในฐานขอมลขนาดใหญ
ซงนยมใช Data Mining เปนขนตอนหนงในกระบวนการ KDD
Data Mining (เหมองขอมล)
เหมองขอมล เปนเครองมอทชวยใหผใชเขาถงขอมลไดโดยตรงจากฐานขอมลขนาดใหญ
เหมองขอมล เปนเครองมอ และ Application ทสามารถแสดงผลการวเคราะหขอมลทางสถตได
เหมองขอมล หมายถงการวเคราะหขอมล เพอแยกประเภท จ าแนกรปแบบและความสมพนธของขอมลจากคลงขอมลหรอฐานขอมลขนาดใหญ น าสารสนเทศไปใชในการตดสนใจธรกจ
ไดองคความรใหม (Knowledge Discovery) อาจอยในรปแบบของกฎเกณฑ (Rule)
ววฒนาการของการท าเหมองขอมล
ป 1960 Data Collection คอ การน าขอมลมาจดเกบอยางเหมาะสมในอปกรณทนาเชอถอและปองกนการสญหายไดเปนอยางด
ป 1980 Data Access คอ การน าขอมลทจดเกบมาสรางความสมพนธตอกนในขอมลเพอประโยชนในการน าไปวเคราะห และการตดสนใจอยางมคณภาพ
ป 1990 Data Warehouse & Decision Support คอ การรวบรวมขอมลมาจดเกบลงไปในฐานขอมลขนาดใหญโดยครอบคลมทกดานขององคกร เพอชวยสนบสนนการตดสนใจ
ป 2000 Data Mining คอ การน าขอมลจากฐานขอมลมาวเคราะหและประมวลผล โดยการสรางแบบจ าลองและความสมพนธทางสถต
ท าไมจงตองม Data Mining
ขอมลทถกเกบไวในฐานขอมลหากเกบไวเฉย ๆ กจะไมเกดประโยชนดงนนจงตองมการสกดสารสนเทศหรอการคดเลอกขอมลออกมาใชงานสวนทเราตองการ
ในอดตเราไดใชคนเปนผสบคนขอมลตางๆ ในฐานขอมลซงผสบคนจะท าการสรางเงอนไขขนมาตามภมปญญาของผสบคน
ในปจจบนการวเคราะหขอมลจากฐานขอมลเดยวอาจไมใหความรเพยงพอและลกซงส าหรบการด าเนนงานภายใตภาวะทมการแขงขนสงและมการเปลยนแปลงทรวดเรวจงจ าเปนทจะตองรวบรวมฐานขอมลหลาย ๆ ฐานขอมลเขาดวยกน เรยกวา “ คลงขอมล” ( Data Warehouse) ดงนนเราจงจ าเปนตองใช Data Mining ในการดงขอมลจากฐานขอมลทมขนาดใหญ เพอทจะน าขอมลนนมาใชงานใหเกดประโยชนสงทสด
ขนตอนการท าเหมองขอมล
Data Cleaning เปนขนตอนส าหรบการคดขอมลทไมเกยวของออกไป Data Integration เปนขนตอนการรวมขอมลทมหลายแหลงใหเปนขอมลชด
เดยวกน Data Selection เปนขนตอนการดงขอมลส าหรบการวเคราะหจากแหลงทบนทกไว Data Transformation เปนขนตอนการแปลงขอมลใหเหมาะสมส าหรบการใชงาน Data Mining เปนขนตอนการคนหารปแบบทเปนประโยชนจากขอมลทมอย Pattern Evaluation เปนขนตอนการประเมนรปแบบทไดจากการท าเหมองขอมล Knowledge Representation เปนขนตอนการน าเสนอความรทคนพบ โดยใช
เทคนคในการน าเสนอเพอใหเขาใจ
สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล
Database, Data Warehouse, World Wide Web และ Other Info Repositories เปนแหลงขอมลส าหรบการท าเหมองขอมล
Database หรอ Data Warehouse Server ท าหนาทน าเขาขอมลตามค าขอของผใช
Knowledge Base ไดแก ความรเฉพาะดานในงานทท าจะเปนประโยชนตอการสบคน หรอประเมนความนาสนใจของรปแบบผลลพธทได
Data Mining Engine เปนสวนประกอบหลกประกอบดวยโมดลทรบผดชอบงานท าเหมองขอมลประเภทตางๆ ไดแก การหากฎความสมพนธ การจ าแนกประเภท การจดกลม
สวนประกอบหรอสถาปตยกรรมของการท าเหมองขอมล (ตอ)
Pattern Evaluation Module ท างานรวมกบ Data Mining Engine โดยใชมาตรวดความนาสนใจในการกลนกรองรปแบบผลลทธทได เพอใหการคนหามงเนนเฉพาะรปแบบทนาสนใจ
User Interface สวนตดตอประสานระหวางผใชกบระบบการท าเหมองขอมล ชวยใหผใชสามารถระบงานท าเหมองขอมลทตองการท า ดขอมลหรอโครงสรางการจดเกบขอมล ประเมนผลลพธทได
ขอมลทใชท า Data mining มาจากไหน?
ขอมลแบงตามทมา◦ ภายในบรษท/องคกร ขอมลการซอขาย ขอมลประวตลกคา ขอมลประวตพนกงาน
◦ ภายนอกบรษท/องคกร ขอมลจาก social media ตางๆ ขอมลขาวตางๆ ขอมลรปภาพและเสยง
ทมา: http://www.ibmbigdatahub.com/infographic/where-does-big-data-come
6
ประเภทของขอมลทสามารถท า Data Mining
Relational databases เปนฐานขอมลทจดเกบอยในรปแบบของตาราง โดยในแตละตารางจะประกอบไปดวยแถวและคอลมน ความสมพนธของขอมลทงหมดสามารถแสดงไดโดย Entity Relationship Model
ประเภทของขอมลทสามารถท า Data Mining (ตอ)
Relational databases
ตารางท 1 ตวอยางตารางขอมลนสตขนตน
ตารางท 2 ตวอยางขอมลการลงทะเบยนของนสต
ประเภทของขอมลทสามารถท า Data Mining (ตอ)
Data Warehousesเปนการเกบรวบรวมขอมลจากหลายแหลงมาเกบไวในรปแบบเดยวกนและรวบรวมไวในทๆ เดยวกน
ประเภทของขอมลทสามารถท า Data Mining (ตอ)
Data Warehouses
ทมา : http://www.persysinc.com/persys_database_datawarehouse.aspx
Transactional databasesประกอบดวยขอมลทแตละทรานเเซกชนแทนดวยเหตการณในขณะใดขณะหนง เชน ใบเสรจรบเงน จะเกบขอมลในรปชอลกคาและรายการสนคาทลกคารายซอ
ประเภทของขอมลทสามารถท า Data Mining (ตอ)
Transactional databases◦ ใบเสรจรบเงน
ประเภทของขอมลทสามารถท า Data Mining (ตอ)
ประเภทของขอมลทสามารถท า Data Mining (ตอ)
Advanced database เปนฐานขอมลทจดเกบในรปแบบอนๆ เชน- ขอมลแบบ Object oriented- ขอมลทเปน Text file- ขอมลมลตมเดย- ขอมลในรปของ Web Site
ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล
ขอมลขนาดใหญ เกนกวาจะพจารณาความสมพนธทซอนอยภายในขอมลไดดวยตาเปลา หรอโดยการใช Database Management System ( DBMS ) ในการจดการฐานขอมล
ขอมลทมาจากหลายแหลง โดยอาจรวบรวมมาจากหลายระบบปฏบตการหรอหลาย DBMS เชน Oracle , DB2 , MS SQL , MS Access เปนตน
ขอมลทมโครงสรางซบซอน เชน ขอมลรปภาพ ขอมลมลตมเดย ขอมลเหลานสามารถน ามาท า Mining ไดเชนกนแตตองใชเทคนคการท า Data Mining ขนสง
ลกษณะเฉพาะของขอมลทใชท าเหมองขอมล (ตอ)
ขอมลทไมมการเปลยนแปลงตลอดชวงเวลาทท าการ Mining หากขอมลทมอยนนเปนขอมลทเปลยนแปลงตลอดเวลาจะตองแกปญหานกอน โดยบนทกฐานขอมลนนไวและน าฐานขอมลทบนทกไวมาท า Mining แตเนองจากขอมลนนมการเปลยนแปลงอยตลอดเวลา จงท าใหผลลพธทไดจาการท า Mining สมเหตสมผลในชวงเวลาหนงเทานน ดงนนเพอใหไดผลลพธทมความถกตองเหมาะสมอยตลอดเวลาจงตองท า Mining ใหมทกครงในชวงเวลาทเหมาะสม
ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม
จ านวนและขนาดขอมลขนาดใหญถกผลตและขยายตวอยางรวดเรว การสบคนความรจะมความหมายกตอเมอฐานขอมลทใชมขนาดใหญมาก ปจจบนมจ านวนและขนาดขอมลขนาดใหญทขยายตวอยางรวดเรว โดยผานทาง Internet ดาวเทยม และแหลงผลตขอมล อน ๆ เชน เครองอานบารโคด , เครดตการด , อคอมเมรซ
ขอมลถกจดเกบเพอน าไปสรางระบบการสนบสนนการตดสนใจ ( Decision Support System) เพอเปนการงายตอการน าขอมลมาใชในการวเคราะหเพอการตดสนใจ สวนมากขอมลจะถกจดเกบแยกมาจากระบบปฏบตการ ( Operational System ) โดยจดอยในรปของคลงหรอเหมองขอมล ( Data Warehouse ) ซงเปนการงายตอการน าเอาไปใชในการสบคนความร
ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม (ตอ)
ระบบ computer สมรรถนะสงมราคาต าลง เทคนค Data Mining ประกอบไปดวย Algorithm ทมความซบซอนและความตองการการค านวณสง จงจ าเปนตองใชงานกบระบบ computer สมรรถนะสง ปจจบนระบบ computer สมรรถนะสงมราคาต าลง พรอมดวยเรมมเทคโนโลยทน าเครอง microcomputer จ านวนมากมาเชอมตอกนโดยเครอขายความเรวสง ( PC Cluster ) ท าใหไดระบบ computer สมรรถนะสงในราคาต า
ปจจยทท าใหการท าเหมองขอมลเปนทไดรบความนยม (ตอ)
การแขงขนอยางสงในดานอตสาหกรรมและการคา เนองจากปจจบนมการแขงขนอยางสงในดานอตสหกรรมและการคา มการผลตขอมลไวอยางมากมายแตไมไดน ามาใชใหเกดประโยชน จงเปนการจ าเปนอยางยงทตองควบคมและสบคนความรทถกซอนอยในฐานขอมลความรทไดรบสามารถน าไปวเคราะหเพอการตดสนใจในการจดการในระบบตาง ๆ ซงจะเหนไดวาความรเหลานถอวาเปนผลตผลอกชนหนงเลยทเดยว
ตวอยางการน าเหมองขอมลมาใชงาน
ธรกจการขายและการตลาด (Retail & Marketing) ใชวเคราะหรปแบบพฤตกรรมการซอสนคาของลกคา ใชหาความสมพนธของ Customer Demographic Characteristic วาสงผลตอ
ยอดซอไหม หาความสมพนธของสนคาทลกคาซอ เชน ซออะไรกอนหลงบาง ใชในการท านายความเปนไปไดทลกคาประเภทไหนจะตอบกลบ Mail โฆษณาสนคา
เพอทจะไดวางแผนสงขอมลโปรโมชนในการขายไดตรงจดมากขน การวเคราะห Market Trend
ตวอยางการน าเหมองขอมลมาใชงาน
ธรกจธนาคาร (Banking) ใชวเคราะหรปแบบการโกงของลกคาในการใชบตรเครดต เพอทวาจะไดปองกนกอน
แตเนนๆ วเคราะหเพอแบงแยกหาลกคาทมเครดตด หรอ ไมด และ พฤตกรรมการใชจายเงน
ผานบตรของแตละกลมวาเปนอยางไร วเคราะหกลมของการใชบตรเครดต ชวยวเคราะหหา Correlation ระหวาง Financial Indicators ตางๆ
ตวอยางการน าเหมองขอมลมาใชงาน
ธรกจประกนภย ใชวเคราะหพฤตกรรมการรองเรยน (Claim Analysis) ของลกคา ใชหารปแบบโมเดลของลกคาทนาจะนโยบายหรอกรมธรรมใหมของธรกจ ใชหารปแบบพฤตกรรมของลกคาทจดอยในกลมเสยงตอธรกจ
ตวอยางการน าเหมองขอมลมาใชงาน
ธรกจดานยา โรงพยาบาล คลนก ใชวเคราะหหาพฤตกรรมของคนไขทนาจะมโอกาสมาหาหมอ หรอมาโรงพยาบาล ใชวเคราะหหาวธการหรอยาบ าบดรกษาโรคทดทสด ส าหรบอาการและความ
เจบปวยแตละประเภท ใชวเคราะหหาความสมพนธระหวางอาการของผปวยกบการท านายโรคทนาจะ
เกดขน
ประโยชนของเหมองขอมล
การท าเหมองขอมล จ าเปนตองอาศยบคลากรจากหลายฝาย และตองอาศยความรจ านวนมาก ถงจะไดรบประโยชนอยางแทจรง เพราะสงทไดจากขนตอนวธเปนเพยงตวเลข และขอมล ทอาจจะน าไปใชประโยชนไดหรอใชประโยชนอะไรไมไดเลยกเปนได ผทศกษาการท าเหมองขอมลจงควรมความรรอบดานและตองตดตอกบทก ๆ ฝาย เพอใหเขาใจถงขอบเขตของปญหาโดยแทจรงกอน เพอใหการท าเหมองขอมลเกดประโยชนอยางแทจรง
The end
Q & A
Recommended