Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Copyright © SAS Inst itute Inc. A l l r ights reserved.
SAS® USER FORUMDENMARK 2017
Introduktion til Visual Data Mining and Machine LearningAstrid Enslev Vestergård, SAS Institute
Copyright © SAS Inst itute Inc. A l l r ights reserved.
SAS® USER FORUMSWEDEN 2017
Agenda
• Introduktion til et par machine learning-modeller
• Case-introduktion
• Demo
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Beslutningstræ1
2 3
X2 < 0.63
6 7
X1 >= 0.50
10 11
X2 >=0.69
4 5
X2 >= 0.63
X1 < 0.50 X1 >= 0.50
8 9
X1 >= 0.54X1 < 0.54
X1 < 0.50
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
BeslutningstræSplit populationen op i to sub-populationer
N = 64104P = 0.65
N = 39544P=0.52
N = 24560P = 0.86
x <= 42 x > 42
ASplitter populationen op i to sub-populationer ved en vilkårlig variabel x – her med værdien 42
B
Variable Value Split strength*
Gender M vs F 0.017
Age 42 0.002
Etnicity {DK,EU} vs {nonEU} 0.005
Insurance {A,C} vs {D,E,F} 0.776
Municipality {Aarhus,Aalborg, …} vs {Odense, Esbjerg,…}
0.546
Business type {Bakery, Farming, ..} vs {Banking, Insurance, …}
0.443
Salary 123.456 0.022
Number of children X=0 vs 0<X 0.086
Company size 18 0.321
C Måle splitstyrken
* = Small means strong relation
Mand Kvinde
T = 1 123 443
T = 0 143 12
Traditionel Chi2-test for uafhængighed giver en P-værdi for hypotesen, at køn og target er uafhængige (ikke-relaterede).
Små P-værdier betyder derfor, at vi kan afvise hypotesen med stor sikkerhed.
Find ud af, hvilken variabel x er, og for hvilken værdi splittet skal ske ved. Næsten alle muligheder bliver afprøvet
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
BeslutningstræOpdel inputrummet i kasser (bladnoder)
x1
x2
4 8
9
6
10
111
2 3
X2 < 0.63
6 7
X1 >= 0.50
10 11
X2 >=0.69
4 5
X2 >= 0.63
X1 < 0.50 X1 >= 0.50
8 9
X1 >= 0.54X1 < 0.54
X1 < 0.50
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
BeslutningstræKompleksitet af beslutningstræsmodeller
Simple modeller Komplekse modeller
Antal slutnoder
L=2 L=3 L=4 L=5
Fejl
Valideringsfejl
Træningsfejl
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Overbygning på beslutningstræetBagging aka bootstrap aggregation
• Laver stikprøver af observationerne
• Laver flere modeller
• Laver en gennemsnitsmodel
• Sørger for, at outliers ikke får for meget vægt
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Random forestBagging begge veje
Fuldt datasæt Tilfældige stikprøvedata Træ på stikprøvedata
Random forests er en ensemblemetode, der bruger flere beslutningstræer baseret på
tilfældigt udvalgte subsæt af data.
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Overbygning på beslutningstræetBoosting – fokus på problemerne
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Adaptiv boostingBoosting – fokus på problemerne
Data set Subset
Upweight errors
Upweight errors
Tree Error Weight
Læring Klassificering
Source: Machine Perception and Robotics Group, Dept. of Robotics Science and Technology, Chubu University
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Neurale netværkHvad er det egentlig, det er?
Neurale netværker var oprindeligt inspireret af den biologiske analogi af et
neuron i hjernen. Det er imidlertid bare en matematisk model.
I det neurale netværk er inputtet sendt fremad i netværket, transformeres og
sendt videre frem, indtil det når outputnoden, som er estimatet af target-
variablen.
Output
Hidden layer variables
Weights (to be estimated)
More weights
Input valuesDefinition of the hidden layer variables
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
OverfittingDatapartitionering
Træningsdata Valideringsdata Testdata
Alt data
Data brugt til at estimere modelparametrene.
Data brugt til at finde den optimale kompleksitet (fleksibilitet).
Data brugt til at estimere performance af modellen.
Tilfældig permutering af datapunkter
?
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
Case – OrganicsHvem skal modtage tilbud om økologiske varer?
Finde den bedste model til klassifiering i SAS® Viya™ VDMML
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
OrganicsDatasættet
Variabelnavn Type LabelAntal
kategorier
ID Char Customer Loyalty ID 22,223
DemAffl Num Affluence Grade
DemAge Num Age
DemGender Char Gender 3
DemReg Char Geographic Region 5
DemTVReg Char Television Region 13
PromClass Char Loyalty Status 4
PromSpend Num Total Spend
PromTime Num Loyalty Card Tenure
TargetBuy CharOrganics Purchase
Indicator2
TargetAmt Num Organics Purchase Count
SAS® USER FORUMDENMARK 2017
Copyright © SAS Inst itute Inc. A l l r ights reserved.
OrganicsDatapartionering
• Proc Surveyselect
• Simple sampling method
• 60% er træningsdata, og 40% er valideringsdata
Copyr ight © SAS Inst i tute Inc. Al l r ights reserved.
Demo
Copyright © SAS Inst itute Inc. A l l r ights reserved.
SAS® USER FORUMDENMARK 2017
Astrid Enslev Vestergård M: +45 51 38 76 44E: [email protected]