Practical Data Mining with RapidMiner Studio 6
(data)3 base|warehouse|mininghttp://www.dataminingtrend.com
http://facebook.com/datacube.th
!
Week 12!
Eakasit Pacharawongsakda, Ph.D.
Data Cube: http://facebook.com/datacube.th
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Classification Techniques• Decision Tree
• Naive Bayes
• K-Nearest Neighbors (kNN)
• Neural Network
• Support Vector Machines
• Compare classification performance
• Linear Regression
• Model Tree
2
• Regression Tree
• Attribute (Feature) Selection
• Ensemble Classifiers
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection• ประสทธภาพของ Classification ขนอยกบ แอตทรบวต หรอ feature
ทนำมาใช
• attribute selection เปนวธการคดเลอกแอตทรบวต (หรอ feature) ทสำคญในการสรางโมเดล
• เลอกแอตทรบวตทมความสมพนธ (correlation) กบแอตทรบวตลาเบล (label) มาก
• เลอกแอตทรบวตทมความสมพนธกนระหวางแอตทรบวตนอย
• การทำ attribute selection เหมาะกบ
• ชอมลทมจำนวนแอตทรบวตเปนจำนวนเยอะ เชน text mining
• ใชเวลาในการสรางโมเดลนาน
3
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection• แบงไดเปน 2 แบบ
• Filter approach เปนการคำนวณคานำหนก (หรอคาความสมพนธ) ของแตละแอตทรบวตและเลอกเฉพาะแอตทรบวตทสำคญเกบไว
!
!
!
• Wrapper approach เปนการคำนวณคานำหนกโดยใชโมเดล classification เปนตววดประสทธภาพของแอตทรบวต
4
ID Free Won Cash Call Service Type
1 Y Y Y Y Y spam
2 N Y Y Y N spam
compute weight
ID Free Won Type
1 Y Y spam
2 N Y spam
แอตทรบวตทงหมดใน training data แอตทรบวตหลงจากการเลอก (selection) แลว
ID Free Won Cash Call Service Type
1 Y Y Y Y Y spam
2 N Y Y Y N spam
ID Free Won Type
1 Y Y spam
2 N Y spam
แอตทรบวตทงหมดใน training data แอตทรบวตหลงจากการเลอก (selection) แลว
classification model
Attribute Selection: Filter Approach
Attribute Selection: Wrapper Approach
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection• แบงไดเปน 2 แบบ
• Filter approach เปนการคำนวณคานำหนก (หรอคาความสมพนธ) ของแตละแอตทรบวตและเลอกเฉพาะแอตทรบวตทสำคญเกบไว
• Information Theory คำนวณคานำหนกของแตละแอตทรบวตดวยคา Information Gain
• Chi-Square คำนวณคานำหนกของแตละแอตทรบวตดวยคา Chi-Square
• Wrapper approach เปนการคำนวณคานำหนกโดยใชโมเดล classification เปนตววดประสทธภาพของแอตทรบวต
• Forward Selection
• Backward Elimination
• Evolutionary Selection
5
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering• คำนวณคาความสมพนธของแตละแอตทรบวตกบแอตทรบวต
ลาเบลดวยวธ Information Gain
• ใชไดกบแอตทรบวตทเปนนอมนอล (nominal) เทานน
• คำนวณคา Entropy และ Information Gain (IG)
6
Entropy(c1) = -p(c1) log p(c1)
IG (parent, child) = Entropy(parent) – [p(c1) × Entropy(c1) + p(c2) × Entropy(c2) + ...]
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering• คำนวณคา Information Gain (IG) ระหวางแอตทรบวตกบลาเบล
7
ID Outlook Temperature Humidity Windy Play1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute IGOutlook 0.247Temperature
Humidity
Windy
ตารางคา Information Gain
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering• คำนวณคา Information Gain (IG) ระหวางแอตทรบวตกบลาเบล
8
ID Outlook Temperature Humidity Windy Play1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute IGOutlook 0.247Temperature 0.029
Humidity
Windy
ตารางคา Information Gain
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering• คำนวณคา Information Gain (IG) ระหวางแอตทรบวตกบลาเบล
9
ID Outlook Temperature Humidity Windy Play1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute IGOutlook 0.247Temperature 0.029
Humidity 0.152
Windy
ตารางคา Information Gain
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering• คำนวณคา Information Gain (IG) ระหวางแอตทรบวตกบลาเบล
10
ID Outlook Temperature Humidity Windy Play1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute IGOutlook 0.247Temperature 0.029
Humidity 0.152
Windy 0.048
ตารางคา Information Gain
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Information Theory-based filtering• เลอกแอตทรบวตทมคา IG มากกวา 0.1
11
attribute IGOutlook 0.247Humidity 0.152
Windy 0.048
Temperature 0.029
ID Outlook Humidity Play1 sunny high no
2 sunny high no
3 overcast high yes
4 rainy high yes
5 rainy normal yes
6 rainy normal no
7 overcast normal yes
8 sunny high no
9 sunny normal yes
10 rainy normal yes
11 sunny normal yes
12 overcast high yes
13 overcast normal yes
14 rainy high no
ตารางคา Information Gain
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-7: Weight by IG• โอเปอเรเตอรทเกยวของ
12
โอเปอเรเตอร คำอธบาย
Read CSV ใชสำหรบอานไฟลประเภท CSV
Weight by Information Gainใชสำหรบคำนวณคานำหนกของแอตทรบวตดวยเทคนค Information Gain
Select by weight ใชสำหรบเลอกแอตทรบวตตามคานำหนก (weight)
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-7: Weight by IG• ใชขอมล weather_nominal และโอเปอเรเตอร Weight by Information
Gain
13
1 2
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-7: Weight by IG• ผลการคำนวณคา Information Gain ของแตละแอตทรบวต
14
คา Information Gain (IG)
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-7: Weight by IG• ใชโอเปอเรเตอร Select by weight เพอเลอกแอตทรบวตทมคา weight
มากกวา 0.1
15
1 25
3
64
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-7: Weight by IG• ผลการคดเลอกแอตทรบวตทมคา IG มากกวา 0.1
16
คา Information Gain (IG)
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection• แบงไดเปน 2 แบบ
• Filter approach เปนการคำนวณคานำหนก (หรอคาความสมพนธ) ของแตละแอตทรบวตและเลอกเฉพาะแอตทรบวตทสำคญเกบไว
• Information Theory คำนวณคานำหนกของแตละแอตทรบวตดวยคา Information Gain
• Chi-Square คำนวณคานำหนกของแตละแอตทรบวตดวยคา Chi-Square
• Wrapper approach เปนการคำนวณคานำหนกโดยใชโมเดล classification เปนตววดประสทธภาพของแอตทรบวต
• Forward Selection
• Backward Elimination
• Evolutionary Selection
17
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering• คำนวณคาความสมพนธของแตละ feature ดวยวธ Chi-Square
• ใชไดกบแอตทรบวตทเปนนอมนอล (nominal) เทานน
• ดความถทเกดขนระหวางแอตทรบวตตางๆ เทยบกบแอตทรบวตลาเบล (label)
• คา Chi-Square คำนวณไดจาก
!
!
• f0 = observed frequency
• fe = expected frequency
18
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering• คำนวณคา Chi-Square ระหวางแอตทรบวต Outlook กบลาเบล
!
!
!
!
• Expected Frequency ของ Outlook=sunny และ Play=no= P(Outlook = sunny) * P(Play = no) * Total Number= (5/14) * (5/14) * 14 = 1.785714
19
ID Outlook Play6 rainy no
14 rainy no
1 sunny no
2 sunny no
8 sunny no
3 overcast yes
7 overcast yes
12 overcast yes
13 overcast yes
4 rainy yes
5 rainy yes
10 rainy yes
9 sunny yes
11 sunny yes
Outlook = sunny overcast rainy Total
Play = no 3 0 2 5
Play = yes 2 4 3 9
Total 5 4 5 14
observed frequency
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering• คำนวณคา Chi-Square ระหวางแอตทรบวต Outlook กบลาเบล
20
ID Outlook Play6 rainy no
14 rainy no
1 sunny no
2 sunny no
8 sunny no
3 overcast yes
7 overcast yes
12 overcast yes
13 overcast yes
4 rainy yes
5 rainy yes
10 rainy yes
9 sunny yes
11 sunny yes
Outlook = sunny overcast rainy Total
Play = no 3 0 2 5
Play = yes 2 4 3 9
Total 5 4 5 14
Outlook = sunny overcast rainy Total
Play = no 1.786 1.429 1.786 5
Play = yes 3.214 2.571 3.214 9
Total 5 4 5 14
observed frequency
expected frequency
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering• คำนวณคา Chi-Square ระหวางแอตทรบวต Outlook กบลาเบล
21
Outlook = sunny overcast rainy
Play = no 3 0 2
Play = yes 2 4 3
Outlook = sunny overcast rainy
Play = no 1.786 1.429 1.786
Play = yes 3.214 2.571 3.214
observed frequency
expected frequency
!
!
• Chi-Square = (3-1.786)2/1.786 + (0-1.429)2/1.429 + (2-1.786)2/1.786 + (2-3.214)2/3.214 + (4-2.571)2/2.571 + (3-3.214)2/3.214
= 3.547
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering• คำนวณคา Chi-Square ระหวางแอตทรบวตกบลาเบล
22
ID Outlook Temperature Humidity Windy Play1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute Chi-SquareOutlook 3.547Temperature
Humidity
Windy
ตารางคา Chi-Square
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering• คำนวณคา Chi-Square ระหวางแอตทรบวตกบลาเบล
23
ID Outlook Temperature Humidity Windy Play1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute Chi-SquareOutlook 3.547Temperature 0.570
Humidity
Windy
ตารางคา Chi-Square
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering• คำนวณคา Chi-Square ระหวางแอตทรบวตกบลาเบล
24
ID Outlook Temperature Humidity Windy Play1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute Chi-SquareOutlook 3.547Temperature 0.570
Humidity 2.800
Windy
ตารางคา Chi-Square
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Chi-Square-based filtering• คำนวณคา Chi-Square ระหวางแอตทรบวตกบลาเบล
25
ID Outlook Temperature Humidity Windy Play1 sunny hot high FALSE no
2 sunny hot high TRUE no
3 overcast hot high FALSE yes
4 rainy mild high FALSE yes
5 rainy cool normal FALSE yes
6 rainy cool normal TRUE no
7 overcast mild normal TRUE yes
8 sunny mild high FALSE no
9 sunny mild normal FALSE yes
10 rainy mild normal FALSE yes
11 sunny mild normal TRUE yes
12 overcast mild high TRUE yes
13 overcast hot normal FALSE yes
14 rainy mild high TRUE no
attribute Chi-SquareOutlook 3.547Temperature 0.570
Humidity 2.800
Windy 0.933
ตารางคา Chi-Square
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• เลอกแอตทรบวตทมคา Chi-Square มากกวา 2.0
attribute Chi-SquareOutlook 3.547Humidity 2.800
Windy 0.933
Temperature 0.570
Chi-Square-based filtering
26
ID Outlook Humidity Play1 sunny high no
2 sunny high no
3 overcast high yes
4 rainy high yes
5 rainy normal yes
6 rainy normal no
7 overcast normal yes
8 sunny high no
9 sunny normal yes
10 rainy normal yes
11 sunny normal yes
12 overcast high yes
13 overcast normal yes
14 rainy high no
ตารางคา Chi-Square
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-8: Weight by CS• โอเปอเรเตอรทเกยวของ
27
โอเปอเรเตอร คำอธบาย
Read CSV ใชสำหรบอานไฟลประเภท CSV
Weight by Chi-Squareใชสำหรบคำนวณคานำหนกของแอตทรบวตดวยเทคนค Chi-Square
Select by weight ใชสำหรบเลอกแอตทรบวตตามคานำหนก (weight)
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-8: Weight by CS• ใชขอมล weather_nominal และโอเปอเรเตอร Weight by Chi-
Square
28
1 4
2
3
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-8: Weight by CS• ผลการคำนวณคา Chi-Square ของแตละแอตทรบวต
29
คา Chi-Square (CS)
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• ใชโอเปอเรเตอร Select by weight เพอเลอกแอตทรบวตทมคา weight มากกวา 2.0
Example7-8: Weight by CS
30
7
5
86
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example7-8: Weight by CS• ผลการคดเลอกแอตทรบวตทมคา Chi-Square มากกวา 2.0
31
คา Chi-Square (CS)
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection• แบงไดเปน 2 แบบ
• Filter approach เปนการคำนวณคานำหนก (หรอคาความสมพนธ) ของแตละแอตทรบวตและเลอกเฉพาะแอตทรบวตทสำคญเกบไว
• Information Theory คำนวณคานำหนกของแตละแอตทรบวตดวยคา Information Gain
• Chi-Square คำนวณคานำหนกของแตละแอตทรบวตดวยคา Chi-Square
• Wrapper approach เปนการคำนวณคานำหนกโดยใชโมเดล classification เปนตววดประสทธภาพของแอตทรบวต
• Forward Selection
• Backward Elimination
• Evolutionary Selection
32
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach• เปนวธการเลอกแอตทรบวตใสเขาไปหรอถอดออกมาเพอสรางโมเดล
และเลอก set ของแอตทรบวตทดไวใช
• ใชแอตทรบวต Free อยางเดยว
33
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Free Type
1 Y spam
2 N spam
3 N normal
4 N normal
5 Y spam
6 Y spam
7 N normal
8 N spam
9 N normal
10 N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach• เปนวธการเลอกแอตทรบวตใสเขาไปหรอถอดออกมาเพอสรางโมเดล
และเลอก set ของแอตทรบวตทดไวใช
• ใชแอตทรบวต Won อยางเดยว
34
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Won Type
1 Y spam
2 Y spam
3 N normal
4 N normal
5 N spam
6 N spam
7 N normal
8 Y spam
9 N normal
10 N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach• เปนวธการเลอกแอตทรบวตใสเขาไปหรอถอดออกมาเพอสรางโมเดล
และเลอก set ของแอตทรบวตทดไวใช
• ใชแอตทรบวต Cash อยางเดยว
35
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Cash Type
1 Y spam
2 Y spam
3 N normal
4 N normal
5 N spam
6 N spam
7 N normal
8 N spam
9 N normal
10 N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach• เปนวธการเลอกแอตทรบวตใสเขาไปหรอถอดออกมาเพอสรางโมเดล
และเลอก set ของแอตทรบวตทดไวใช
• ใชแอตทรบวต Free และ Won
36
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Free Won Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N Y spam
9 N N normal
10 N N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach• เปนวธการเลอกแอตทรบวตใสเขาไปหรอถอดออกมาเพอสรางโมเดล
และเลอก set ของแอตทรบวตทดไวใช
• ใชแอตทรบวต Free และ Cash
37
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Free Cash Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N N spam
9 N N normal
10 N N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach• เปนวธการเลอกแอตทรบวตใสเขาไปหรอถอดออกมาเพอสรางโมเดล
และเลอก set ของแอตทรบวตทดไวใช
• ใชแอตทรบวต Won และ Cash
38
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
ID Won Cash Type
1 Y Y spam
2 Y Y spam
3 N N normal
4 N N normal
5 N N spam
6 N N spam
7 N N normal
8 Y N spam
9 N N normal
10 N N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Wrapper Approach• เปนวธการเลอกแอตทรบวตใสเขาไปหรอถอดออกมาเพอสรางโมเดล
และเลอก set ของแอตทรบวตทดไวใช
• ใชแอตทรบวต Free, Won และ Cash
39
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• เพมแอตทรบวตทละ 1 แอตทรบวตและคดเลอกเฉพาะแอตทรบวต
ทมความสำคญเกบไว
• ถาแอตทรบวตทใสเพมเขาไปใหคา performance ดขนกจะเกบแอตทรบวตนไว
• ถาแอตทรบวตทใสเพมเขาไปใหคา performance แยลงกจะดงแอตทรบวตนออกมา
40
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Free อยางเดยว
41
accuracy = 80%
ID Free Type
1 Y spam
2 N spam
3 N normal
4 N normal
5 Y spam
6 Y spam
7 N normal
8 N spam
9 N normal
10 N normal
ทดสอบประสทธภาพดวย Cross-validation
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Won อยางเดยว
42
accuracy = 80%
ID Won Type
1 Y spam
2 Y spam
3 N normal
4 N normal
5 N spam
6 N spam
7 N normal
8 Y spam
9 N normal
10 N normal
ทดสอบประสทธภาพดวย Cross-validation
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Cash อยางเดยว
43
accuracy = 50%
ID Cash Type
1 Y spam
2 Y spam
3 N normal
4 N normal
5 N spam
6 N spam
7 N normal
8 N spam
9 N normal
10 N normal
ทดสอบประสทธภาพดวย Cross-validation
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Free และ Won
44
accuracy = 60%
ทดสอบประสทธภาพดวย Cross-validation
ID Free Won Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N Y spam
9 N N normal
10 N N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Free และ Won
45
accuracy = 60%
ทดสอบประสทธภาพดวย Cross-validation
ID Free Won Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N Y spam
9 N N normal
10 N N normal
ตดแอตทรบวต Cash ทงเนองจากใหคาความถกตองลดลง
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Free และ Cash
46
accuracy = 80%
ทดสอบประสทธภาพดวย Cross-validation
ID Free Cash Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N N spam
9 N N normal
10 N N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Free และ Cash
47
accuracy = 80%
ทดสอบประสทธภาพดวย Cross-validation
ID Free Cash Type
1 Y Y spam
2 N Y spam
3 N N normal
4 N N normal
5 Y N spam
6 Y N spam
7 N N normal
8 N N spam
9 N N normal
10 N N normal
ตดแอตทรบวต Cash ทงเนองจากไมไดทำใหคาความถกตองเพมขน
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-9: Forward Selection• โอเปอเรเตอรทเกยวของ
48
โอเปอเรเตอร คำอธบาย
Read CSV ใชสำหรบอานไฟลประเภท CSV
Forward Selection ใชสำหรบคดเลอกแอตทรบวตดวยวธ Forward Selection
X-Validation แบงขอมลสำหรบสรางโมเดลและทดสอบโมเดล
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-9: Forward Selection• โอเปอเรเตอรทเกยวของ
49
โอเปอเรเตอร คำอธบาย
Neural Net ใชสำหรบสรางโมเดล Neural Network
Apply Model ใชสำหรบ predict ขอมลใหม
Performance(Binominal Classification)
สำหรบแสดงตวชวดของโมเดล classification
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-9: Forward Selection• โหลดขอมล gold_training.csv ดวยโอเปอเรเตอร Read CSV
50
14
2
3
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-9: Forward Selection• คลกปม ‘Import Configuration Wizard…’
• กำหนดแอตทรบวต Date ใหเปนแอตทรบวตประเภทไอด • กำหนดแอตทรบวต GC Trend ใหเปนแอตทรบวตประเภทลาเบล
51
5 6
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-9: Forward Selection• double click ทโอเปอเรเตอร Forward Selection และใชโอเปอเรเตอร
X-validation จาก New Building Block เพอทดสอบประสทธภาพของโมเดล
52
57
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• double click ทโอเปอเรเตอร X-Validation เพอสรางโมเดล Neural Network
Example 7-9: Forward Selection
53
10
8
9
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-9: Forward Selection• คานำหนกของแตละแอตทรบวต
54
คานำหนกของแตละแอตทรบวต
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-9: Forward Selection• แสดงขอมลหลงจากเลอกแอตทรบวต
55
เหลอเพยงแค 4 แอตทรบวต
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-9: Forward Selection• ผลการทดสอบประสทธภาพดวยวธ Cross-validation
56
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection• แบงไดเปน 2 แบบ
• Filter approach เปนการคำนวณคานำหนก (หรอคาความสมพนธ) ของแตละแอตทรบวตและเลอกเฉพาะแอตทรบวตทสำคญเกบไว
• Information Theory คำนวณคานำหนกของแตละแอตทรบวตดวยคา Information Gain
• Chi-Square คำนวณคานำหนกของแตละแอตทรบวตดวยคา Chi-Square
• Wrapper approach เปนการคำนวณคานำหนกโดยใชโมเดล classification เปนตววดประสทธภาพของแอตทรบวต
• Forward Selection
• Backward Elimination
• Evolutionary Selection
57
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Backward Elimination• เรมจากใชแอตทรบวตทงหมดและตดแอตทรบวตออกไปทละ 1 ตว
เพอคดเลอกเฉพาะแอตทรบวตทมความสำคญเกบไว
• ถาแอตทรบวตทตดออกไปใหคา performance ดขนกจะตดแอตทรบวตนทง
• ถาแอตทรบวตทตดออกไปใหคา performance แยลงกจะเกบแอตทรบวตนไว
58
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Free, Won และ Cash
59
accuracy = 60%
ทดสอบประสทธภาพดวย Cross-validation
ID Free Won Cash Type
1 Y Y Y spam
2 N Y Y spam
3 N N N normal
4 N N N normal
5 Y N N spam
6 Y N N spam
7 N N N normal
8 N Y N spam
9 N N N normal
10 N N N normal
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Forward Selection• ใชแอตทรบวต Won และ Cash (ตดแอตทรบวต Free ทง)
60
accuracy = 80%
ทดสอบประสทธภาพดวย Cross-validation
ID Won Cash Type
1 Y Y spam
2 Y Y spam
3 N N normal
4 N N normal
5 N N spam
6 N N spam
7 N N normal
8 Y N spam
9 N N normal
10 N N normal
ตดแอตทรบวต Free ทงเนองจากทำใหคาความถกตองเพมขน
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-10: Backward Elimination• โอเปอเรเตอรทเกยวของ
61
โอเปอเรเตอร คำอธบาย
Read CSV ใชสำหรบอานไฟลประเภท CSV
Backward Eliminationใชสำหรบคดเลอกแอตทรบวตดวยวธ Backward Elimination
X-Validation แบงขอมลสำหรบสรางโมเดลและทดสอบโมเดล
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-10: Backward Elimination• โอเปอเรเตอรทเกยวของ
62
โอเปอเรเตอร คำอธบาย
Neural Net ใชสำหรบสรางโมเดล Neural Network
Apply Model ใชสำหรบ predict ขอมลใหม
Performance(Binominal Classification)
สำหรบแสดงตวชวดของโมเดล classification
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-10: Backward Elimination• โหลดขอมล gold_training.csv ดวยโอเปอเรเตอร Read CSV
63
14
2
3
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-10: Backward Elimination• คลกปม ‘Import Configuration Wizard…’
• กำหนดแอตทรบวต Date ใหเปนแอตทรบวตประเภทไอด • กำหนดแอตทรบวต GC Trend ใหเปนแอตทรบวตประเภทลาเบล
64
5 6
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-10: Backward Elimination• double click ทโอเปอเรเตอร Backward Elimination และใชโอเปอเรเตอร
X-validation จาก New Building Block เพอทดสอบประสทธภาพของโมเดล
65
7
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• double click ทโอเปอเรเตอร X-Validation เพอสรางโมเดล Neural Network
Example 7-10: Backward Elimination
66
10
8
9
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-10: Backward Elimination• คานำหนกของแตละแอตทรบวต
67
คานำหนกของแตละแอตทรบวต
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-10: Backward Elimination• แสดงขอมลหลงจากเลอกแอตทรบวต
68
เหลอเพยงแค 5 แอตทรบวต
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-10: Backward Elimination• ผลการทดสอบประสทธภาพดวยวธ Cross-validation
69
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Attribute (Feature) Selection• แบงไดเปน 2 แบบ
• Filter approach เปนการคำนวณคานำหนก (หรอคาความสมพนธ) ของแตละแอตทรบวตและเลอกเฉพาะแอตทรบวตทสำคญเกบไว
• Information Theory คำนวณคานำหนกของแตละแอตทรบวตดวยคา Information Gain
• Chi-Square คำนวณคานำหนกของแตละแอตทรบวตดวยคา Chi-Square
• Wrapper approach เปนการคำนวณคานำหนกโดยใชโมเดล classification เปนตววดประสทธภาพของแอตทรบวต
• Forward Selection
• Backward Elimination
• Evolutionary Selection
70
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Evolutionary Selection• Forward Selection และ Backward Elimination เปนการทำงานแบบ
greedy ถาเจอเซตของแอตทรบวตททำใหคาความถกตองเพมขนกจะหยดการคนหา
• Evolutionary Selection
• สมเลอกแอตทรบวตขนมา และวดประสทธภาพ
• คดเลอกแอตทรบวตทมประสทธภาพและสมเลอกตวอนเพมขนมา
71
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Evolutionary Selection• โอเปอเรเตอรทเกยวของ
72
โอเปอเรเตอร คำอธบาย
Read CSV ใชสำหรบอานไฟลประเภท CSV
Optimize Selection (Evolutionary)
ใชสำหรบคดเลอกแอตทรบวตดวยวธ Optimize Selection (Evolutionary)
X-Validation แบงขอมลสำหรบสรางโมเดลและทดสอบโมเดล
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Evolutionary Selection• โอเปอเรเตอรทเกยวของ
73
โอเปอเรเตอร คำอธบาย
Neural Net ใชสำหรบสรางโมเดล Neural Network
Apply Model ใชสำหรบ predict ขอมลใหม
Performance(Binominal Classification)
สำหรบแสดงตวชวดของโมเดล classification
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Evolutionary Selection• โหลดขอมล gold_training.csv ดวยโอเปอเรเตอร Read CSV
74
14
2
3
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Evolutionary Selection• คลกปม ‘Import Configuration Wizard…’
• กำหนดแอตทรบวต Date ใหเปนแอตทรบวตประเภทไอด • กำหนดแอตทรบวต GC Trend ใหเปนแอตทรบวตประเภทลาเบล
75
5 6
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Evolutionary Selection• double click ทโอเปอเรเตอร Optimize Selection (Evolutionary)
และใชโอเปอเรเตอร X-validation จาก New Building Block เพอทดสอบประสทธภาพของโมเดล
76
7
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
• double click ทโอเปอเรเตอร X-Validation เพอสรางโมเดล Neural Network
Example 7-11: Evolutionary Selection
77
10
8
9
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Evolutionary Selection• คานำหนกของแตละแอตทรบวต
78
คานำหนกของแตละแอตทรบวต
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Evolutionary Selection• แสดงขอมลหลงจากเลอกแอตทรบวต
79
เหลอเพยงแค 5 แอตทรบวต
(data)3 base|warehouse|mining
http://dataminingtrend.com http://facebook.com/datacube.th
Example 7-11: Evolutionary Selection• ผลการทดสอบประสทธภาพดวยวธ Cross-validation
80