Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Introduction aux data-sciences
Universite Paris-Sud et [email protected]
masedki.github.io
25 avril 2019
Introduction
Validation croisee et bootstrap
Selection de variables en regression lineaireMethodes pas a pasCriteres d’informationMethodes de regularisation, contraction de coefficients oushrinkage
ClassificationRegression logistiqueSelection de variables en regression logistiqueAnalyse discriminante lineaire et quadratique
DendrologieArbres de decision uniquesAgregation par baggingForets aleatoiresBoosting
Support Vector Machine (SVM)
Introduction
References
I http://wikistat.fr/
I https://github.com/wikistat/
Problemes d’apprentissage statistique
1. Identifier les facteurs de risque du cancer de la prostate
2. Predire si une personne est sujette au crise cardiaque, a partir demesure clinique, son regime et des donnees demographiques
3. Classification d’echantillons de tissus dans differents types decancer, en fonction de donnees d’expression de genes
4. Classifier des images de tumeurs
Apprentissage supervise : point de depart
I Une variable de sortie Y (variable reponse, variable cible)
I Un vecteur de p variables X (appele variables explicatives,covariables ou variables d’entree regressors, features, predictors)
I En regression, Y est une variable quantitative (le dosage du PSA,tension arterielle)
I En classification, Y prend un nombre fini de valeurs(vivant/mort, les nombres 0-9, le type de cancer)
I Des donnees dites d’apprentissage training data(x1, y1), . . . , (xN , yN ). Ce sont les observations.
Objectif
A partir des donnees d’apprentissage
I Predire la reponse non observee d’un cas ”test”
I Comprendre l’influence des variables explicatives sur la variablereponse (comment et de combien)
I Mesurer la qualite de notre ”inference statistique” notamment saprediction
Pourquoi ce cours ! ! !
I Il est important de comprendre les differentes techniques poursavoir comment et quand les utiliser
I Il faut absolument comprendre les methodes basiques en premier
I Il est indispensable d’evaluer la precision et les limites d’unemethode car souvent les methodes simples fonctionnent mieuxque les methodes sophistiquees ! !
Un mot sur l’apprentissage non-supervise
I Pas de reponse (Y )
I Buts plus flous : description de donnees, analyse de donnees
I Exemple : Regrouper des observations similaires (marketing,. . . )
I Difficulte de l’evaluation du resultat
I Different de l’apprentissage supervise, mais peut etre une etapepreliminaire a un apprentissage supervise
Apprentissage statistique versus Machine learning
Deux domaines qui nomment la meme chose ! ! !
I Machine learning est une branche de l’intelligence artificielle
I Apprentissage statistique est une branche de la statistique
Differences entre les deux visions
I En Machine learning, on met l’accent sur l’application a grandeechelle et la precision de la prediction
I L’apprentissage statistique met l’accent sur les modeles et leurinterpretabilite, precision et incertitude.
Apprentissage statistique : exempletriglycerides vs BMI et cholesterol avec la droite de regression
+
+
+
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+ ++
+
+
++
+
+
++
+
++
+
+
+
++
+
+
+
+
+
+
++
+
+
+
+
+
++
+
+
+
++
+
+
+
+
+++
+
+
++
++
+
+
+
++ +
+
+
+
+
+
++ ++
+
+
+++
+ ++
+
+
+
+
+
++
+
+
+
+
+
++
++ +
+
++
+
+
++
+
+
+
++
++
+
+
++
+
+
+ +
++
+
++
+
+
+ +
+
+ +
+
+
+
++
++
+
++
+ +
+
+
+
++
+
+
+
+
++ ++
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
++
+
+
+
++
+ +
+
+
+
++
+ +
+
+
+
++
+
+
+
+
+
++
++
+
+
+
+
+
+ +
+
+
+
+ +
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+ ++
+
+
++
++
+
+
+
+
++
++
+
++
+
+
+
+
+
++
+
+
+
+
+ ++++
+
+
+
+
+
+
+
+
++
+
+
+
+
++
++
+
+
+
+
+
+
+
++
+
+
+
+
++ +
+++ +
+
+
+
+
+
+++
+
+
+
+
++
+
+
+
++
++
+
+
+
+++
+
++
+
+
++
+ +
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+ +
+
+
+
+
+
+
+
20 25 30 35
10
02
00
30
04
00
50
06
00
bmi
tg
+
+
+
+
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+
+
+
+
++
+
+
+++
+
+
++
+
+
++
+
++
+
+
+
++
+
+
+
+
+
+
+++
+
+
+
+
++
+
+
+
++
+
+
+
+
+++
+
+
++
++
+
+
+
++ +
+
+
+
+
+
++ + +
+
+
++ +++ +
+
+
+
+
+
++
+
+
+
+
+
++
++ +
+
++
+
+
++
+
+
+
++
+++
+
+ +
+
+
+ +
+ +
+
++
+
+
++
+
++
+
+
+
++
++
+
++
++
+
+
+
++
+
+
+
+
++ +
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
++
++
+
++
+
+
+
++
+ +
+
+
+
+ +
++
+
+
+
++
+
+
+
+
+
++
++
+
+
+
+
+
+ +
+
+
+
++
+
+
+
+
+
++
+
++
+
+
+
+
+
++
+ ++
+
+
++
++
+
+
+
+
++
++
+
++
+
+
+
+
+
++
+
+
+
+
+++ ++
+
+
+
+
+
+
+
+
++
+
+
+
+
++
+ +
+
+
+
+
+
+
+
++
+
+
+
+
++ +
++++
+
+
+
+
+
+ ++
+
+
+
+
++
+
+
+
+ +
++
+
+
+
++
+
+
++
+
+
++
++
+
+
+
++
+
+
+
+
++
+
+
+
+
+
+
+
+
+
+
+
++
+
+ +
+
+
+
+
+
+
+
120 140 160 180 200 220 240
10
02
00
30
04
00
50
06
00
chol
tg
Apprentissage : exemple + notations
I Peut-on predire le taux de tri-glycerides en fonction du BMI etdu taux de cholesterol, c’est a dire un modele
Triglycerides ≈ f(BMI, cholesterol
)I Ici le taux de Tri-glycerides represente la variable reponse Y
qu’on cherche a predire ou a expliquer
I Le BMI est une variable explicative ou covarible qu’on note X1 etle taux cholesterol est aussi une variable explicative qu’on noteX2.
On peut maintenant ecrire notre modele
Y = f(X) + ε ou X =
(X1
X2
)ε capte l’erreur de mesure.
Apprentissage : quelle est la meilleure fonction f(X) ?
I Avec une ”meilleure” fonction f on peut predire Y pour unenouvelle observation des variables explicatives X = x
I De maniere generale, on peut identifier les composantesimportantes de X =
(X1, X2 . . . , Xp
)pour expliquer Y and les
composantes qui le sont moins. - Selon la complexite de f , onpeut comprendre comment et de combien les composantes Xj deX influent sur la valeur de Y .
La reponse est oui : la fonction de regression
I C’est f(0.5) = E(Y |X = 0.5
)la valeur moyenne de Y sachant
que X = 0.5.
I C’est la fonction optimale pour l’erreur quadratique, c’est a dire,
minimise E((Y − g(X)
)2|X = x)
pour toute fonction g et toute
valeur de x.
I ε = Y − f(X) est l’erreur incompressible, meme si f est connue,pour chaque valeur de X, nous avons une realisation d’unevariable aleatoire Y
I Pour toute estimateur f(x) de f(x), nous avons
E((
Y − f(X))2
|X = x
)=(f(x)− f(x)
)2
︸ ︷︷ ︸reductible
+ Var(ε|X = x
)︸ ︷︷ ︸
irreductible
estimation de f ?
I Nous n’avons aucune observation avec x = 0.5
I On ne sait pas calculer E(Y |X = x
)!
I Approximation
f(x) = Moyenne(Y,X ∈ N (x)
)ou N (x) represente un certain voisinage de x.
0.0 0.2 0.4 0.6 0.8 1.0
−0.1
5−0
.10
−0.0
50.
00
k = 10
x
y
Une fonction ideale f(X) ? pour une certaine valeur de X, disons 0.5 ?
graphiquement
0.0 0.2 0.4 0.6 0.8 1.0
−0.1
5−0
.10
−0.0
50.
00
k = 10
x
y
Complexite d’un modele (compromis biais variance)
0.0 0.2 0.4 0.6 0.8 1.0
−0
.15
−0
.10
−0
.05
0.0
0
0.33
x
y
0.0 0.2 0.4 0.6 0.8 1.0
−0
.15
−0
.10
−0
.05
0.0
0
0.03
x
y
0.0 0.2 0.4 0.6 0.8 1.0
−0
.15
−0
.10
−0
.05
0.0
0
0.01
xy
Evaluation de la precision : phenomene desur-apprentissage
0.0 0.2 0.4 0.6 0.8 1.0
0.00
0.02
0.04
0.06
0.08
Averaged training and test errors
1/k
Erro
r
KNN ave training errorLS ave training errorKNN ave test errorLS ave test error
Evaluer la precision : premier pas
Supposons que l’on ajuste un modele f(x) sur des donneesd’apprentissage Tr = {(x1, y1), . . . , (xN , yN )}.
Performance de f ?Premiere idee : erreur moyennede prediction sur Tr :
MSETr = Moyennei∈Tr
(yi−f(xi)
)2
OPTIMISTE(sur-apprentissage)
Meilleure idee : sur un jeu dedonnees de test,Te = {(xN+1, yN+1), . . . , },independant de Tr :
MSETe = Moyennei∈Te
(yi−f(xi)
)2
Apprentissage : probleme de classification
Ici la variable reponse Y est qualitative :le type d’une tumeur C = {maligne, benigne}Les objectifs sont
I Construire une regle de classification C(X) qui permet d’associerun ”label” de C pour une nouvelle obsevation X sans label connua priori.
I Evaluer l’erreur de classification de la regle
I Comprendre le role des chaque variable explicativeX =
(X1, X2, . . . , Xp
)dans la regle de classification
Un peu de formalisme
Supposons qu’on a le cas general ou C possede K labels numerotes de1 a K, on definit les probabilites conditionnelles
pk(x) = P(Y = k|X = x
), k = 1, 2, . . . ,K.
La regle de classification dite de Bayes en un certain point x0 estdonnee par
C(x0) = j si j = arg maxk∈{1,...,K}
pk(x0)
Une regle de classification basee sur les plus proches voisins
pk(x0
)=
1
|N0|∑i∈N0
I(yi = k
)
Un peu de formalisme : evaluation
I La mesure de performance d’une regle de classification C(x)estdonnee par l’erreur de classification
ErrTe = Moyennei∈TeI(yi 6= C(xi)
)I La regle de classification de Bayes (avec les vraies pk(x)) realise
la plus petite erreur de classification dans la population.
I Les svm (Support Vector Machines) construisent des modelesstructures pour C(x)
I La regression logistique, les modeles comme la LDA QDAproposent des constructions de modeles structures pour pk(x)
Jeu de donnees avec la frontiere issue de la regle deBayes
Bayes decision boundary
x1
x2
−2 −1 0 1 2 3 4
−2−1
01
23
Regle de classification knn k = 15
15−nearest neighbour
x1
x2
−2 −1 0 1 2 3 4
−2−1
01
23
Regle de classification knn k = 1
1−nearest neighbour
x1
x2
−2 −1 0 1 2 3 4
−2−1
01
23
Les Knn sont victimes du fleau de la dimension
I Ces methodes, basees sur desmoyennes autour des voisinssont plutot bonnes si− petite dimension p ≤ 4− grand echantillon n� p
I des versions lissees, obtenuespar− methodes a noyaux− lissage par splines,− . . .
Raison. le fleau de la dimension.Les voisins les plus prochespeuvent etre eloignes en grandedimension
I Il faut une quantiteraisonnable de valeurs de yia moyenner pour que f(x)ait une faible variance
I En grande dimension, pourobtenir cette quantited’observation, il fauts’eloigner beaucoup de x.
On perd l’idee de moyennelocale autre de X = x.
Le fleau de la dimension
Validation croisee et bootstrap
ButI Dans cette partie, nous allons discuter de deux
methodes de re-echantillonnage : la validation croisee etle bootstrap
I Ces methodes re-ajustent le modele que l’on souhaitesur des echantillons issus de l’echantillond’apprentissage, dans le but d’obtenir des informationssupplementaires sur ce modele
I Par exemples, ces methodes fournissent des estimationsde l’erreur sur des ensembles de test, le biais et lavariance des estimations de parametres. . .
Erreur d’entrainement et erreur de test
On rappelle la difference entre erreur de test et erreurd’entrainement :
I L’erreur de test est l’erreur moyenne commise par unemethode d’apprentissage statistique pour predire unereponse sur une nouvelle observation, qui n’a pas eteutilisee pour ajuster le modele.
I En revanche, l’erreur d’entrainement peut etrefacilement calculee en appliquant la methoded’apprentissage sur les donnees d’entrainement.
I Mais l’erreur d’entrainement est souvent bien differentede l’erreur de test, et en particulier, l’erreurd’entrainement sous-estime parfois grandement l’erreurde test — on parle d’erreur trop optimiste.
Erreur d’entrainement et erreur de test
Estimations de l’erreur de prediction
I La meilleure solution : un grand ensemble de testclairement designe. Bien souvent, ce n’est pasdisponible.
I Certaines methodes permettent de corriger l’erreurd’entrainement pour estimer l’erreur de test, avec desarguments fondes mathematiquement.Cela inclut les Cp de Mallows, les criteres AIC et BIC.Ils seront discutes plus tard.
I Ici, nous nous interessons a une classe de methodes quiestime l’erreur de test en mettant de cote unsous-ensemble des donnees d’entrainement disponiblespour ajuster les modeles, et en appliquant la methodesajustee sur ces donnees mises de cote.
Approche par ensemble de validation
I Cette methode propose de diviser l’echantillond’apprentissage en deux : un ensemble d’entrainementet un ensemble de validation
I Le modele est ajuste sur l’ensemble d’entrainement, eton l’utilise ensuite pour predire les reponses surl’echantillon de validation.
I L’erreur obtenue en comparant prediction etobservation sur cet echantillon de validation approchel’erreur de test. On utilise typiquement des moindrescarres (MSE) en regression et des taux de mauvaisesclassification si la reponse est qualitative (ou unefonction de cout d’erreur)
Exemple sur les donnees simulees (degre 2)
I On veut comparer la regression lineaires a des regressionspolynomiales de differents degres
I On divise en deux les 200 observations : 100 pour l’entrainement,100 pour le test.
0 2 4 6 8
12
510
2050
100
200
polynomial degree
mean
squa
red er
ror
0 2 4 6 8
15
1050
100
500
1000
polynomial degree
mean
squa
red er
ror
Sur une partition aleatoire Variabilite d’une partition al’autre
Inconvenients de l’approche par ensemble de validation
I L’estimation obtenue par cette methode peut etre tresvariable, et depend de la chance ou malchance dans laconstruction du sous-echantillon de validation
I Dans cette approche, seule une moitie des observationsest utilisee pour ajuster les modeles — celles qui sontdans l’ensemble d’entrainement.
I Cela suggere que l’erreur calculee peut surestimerl’erreur de test d’un modele ajuste sur l’ensemble desdonnees (moins de variabilite d’echantillonnage dansl’inference des parametres du modele)
Deja mieux : echanger les roles entrainement-validation etfaire la moyenne des deux erreurs obtenues. On croise lesroles.
Validation croisee a K groupes
I C’est la methode la plus couramment utilisee pour estimerl’erreur de test
I L’estimation peut etre utilisee pour choisir le meilleur modele (lameilleure methode d’apprentissage), ou approcher l’erreur deprediction du modele finalement choisi.
I L’idee est de diviser les donnees en K groupes de meme taille. Onlaisse le k-eme bloc de cote, on ajuste le modele, et on l’evaluesur le bloc laisse de cote.
I On repete l’operation en laissant de cote le bloc k = 1, puisk = 2,. . . jusqu’a k = K. Et on combine les resultats
Details
Pour chacune des observations,on obtient une predictionyi = f(xi) ou C(xi) au momentou i est dans le groupe mis decote, et une seule prediction.On compare alors ces predictionsaux observations comme pourl’erreur de test
MSE(K) =1
n
n∑i=1
(yi − yi)2
ou
τ(K) =1
n
n∑i=1
1{yi − C(xi)
}Lorsque K = n, on parle de� leave-one outcross-validation � (LOOCV)
Danger avec le leave-oneout !On dit que LOOCV ne secouepas assez les donnees. En effet,les classifiers C ou les fonctionsde regression inferees f avec(n− 1) donnees sont tres correlesles uns aux autres.On ne voit plus l’erreurd’echantillonnage, autrement ditla variabilite de l’estimation de lafonction. C’etait pourtant toutl’interet de la validation croisee.On choisit generalement K = 5ou K = 10 blocs.
Retour au jeu de donnees simule
0 2 4 6 8
12
510
20
polynomial degree
mea
n sq
uare
d er
ror
En cas d’egalite, choisir le modele le plus parcimonieux car il auranaturellement moins de variance d’estimation dans les coefficients dumodele.
Validation croisee : les pieges
Considerons un classifieur simple pour predire une reponseY binaire, mais avec de nombreuses co-variables (p = 5000).On procede comme suit
1. On demarre avec les 5000 predicteurs et un echantillonde taille 50, et on cherche les 100 predicteurs qui ont laplus grande correlation par la reponse
2. On utilise une methode d’apprentissage, par exemple laregression logistique, sur ces 100 meilleures co-variables.
Comment doit-on estimer l’erreur de test ?Peut-on utiliser la validation croisee a l’etape 2 ? ? ?
Reponse : NON, NON et NON !
1. On demarre avec les 5000 predicteurs et un echantillon de taille50, et on cherche les 100 predicteurs qui ont la plus grandecorrelation par la reponse
2. On utilise une methode d’apprentissage, par exemple laregression logistique, sur ces 100 meilleures co-variables.
I Cela ignore le fait que l’etape 1 a deja utiliser les reponsesobservees. Cette etape est une forme d’entrainement du classifierfinal.
I Il est facile de simuler des donnees realistes, avec Y independantde X (dont l’erreur de test doit etre de 50%) mais dont l’erreurcalculee par CV dans l’etape 2 est proche de 0 !Essayer de le faire vous meme !
I Cette erreur est pourtant comise dans de nombreux articlestraitant de donnees genomiques !
Bootstrap
I Le bootstrap est un outilstatistique flexible etpuissant qui peut etre utilisepour quantifier l’incertitudeassociee a la valeur d’unestimateur, ou d’unemethode statistique.
I Par exemple, elle fournit uneapproximation de la variancede l’estimateur d’uncoefficient, ou un intervallede confiance pour cecoefficient.
D’ou vient ce nom ?
I De l’expression � to pulloneself up by one’sbootstraps �, dont on penseque l’origine provient dulivre The SurprisingAdventures of BaronMunchausen de RudolphErich Raspe :� The Baronhad fallen to the bottom of adeep lake. Just when itlooked like all was lost, hethought to pick himself upby his own bootstraps. �
I Ne pas confondre avec lasequence d’amorcage desordinateurs, pour laquelle onparle parfois de� bootstrap �.
Selection de variables en regressionlineaire
Regression lineaire : rappel
I Une approche simple pourfaire de l’apprentissagesupervise. Elle suppose queY depend lineairement deX1,. . .Xp
I Les vraies fonctions deregression ne sont jamaislineaires
I Meme si cela semble tropsimple, la regression lineaireest extremement utile a lafois conceptuellement et enpratique.
Le cas de regression lineairesimple
I On pose un modele de laforme
Y = β0 + β1X + ε,
ou β0, β1 inconnus sontordonnee a l’origine(intercept) et pente (slope).Ce sont les coefficients dumodele
I Etant estimes ces coefficientspar β0 et β1, on predit ysachant x avec
y = β0 + β1x,
Regression lineaire multiple
I Notre modele
Y = β0+β1X1+· · ·+βpXp+ε
I On interprete βj commel’effet moyen sur Y d’unaccroissement de Xj d’uneunite lorsque tous les autrespredicteurs sont fixes.
I On ne peut faire aucuneaffirmation en terme decausalite.
Exemple. Y = serumtriglycerides mg/dl,A = age in years et B body-massindex, kg/m2.
Y = −247.25 + 3.5A+ 9.3B.Comment s’interprete 9.3 ?
Interpreter les coefficients deregression
I Le scenario ideal lorsque lespredicteurs sontindependants, et le designequilibreI chaque coeff peut etre
estime et teste separementI interpretation de gauche
est OK
I La correlation entre Xj posedes problemesI la variance des
estimateurs s’accroitI l’interpretation devient
hasardeuse (lorsque Xj
change, tout change !)
Estimation et prediction pour la regression multiple
I A partir d’estimation des
coef β0, β1, . . . , βp, on peutpredire avec
y = β0 + β1x1 + · · ·+ βpxp
I Comme en dimension 1, onestime les β en minimisant lasomme des carrees residuelle.Formule theorique quidepend d’une inversion dematrice produit. → utiliserun logiciel de statistique
I De meme, SE(βj) pourchaque coefficient, t-test denullite, test de Fisher,. . .
Resultats pour les donnees triglycerides
Coeff Std.Err t-stat p-valueIntercept -247.25 21.24 -11.64 <2e-16BMI 9.30 0.90 10.32 <2e-16age 3.50 0.19 18.69 <2e-16
CorrelationsTG BMI age
TG 1.00 0.56 0.73BMI 1.00 0.34age 1.00
Quelques rappels
On note
I La somme des carres totale SST = SYY =n∑i=1
(yi − y)2
I La somme des carres residuelle RSS =n∑i=1
(yi − yi)2, ou
Y = Xβ β =(X′X
)−1X′Y
I La somme des carres expliquee par la regression
SSreg =n∑i=1
(yi − y)2
Des questions importantes
1. Y a t-il au moins un des Xj
utile pour predire Y ?
2. Sont-ils vraiment tousutiles ?
3. Comment le modele s’ajusteaux donnees ?
4. Avec une nouvelle valeur deX, quelle reponse doit-onpredire ? Precision de laprediction ?
Des questions importantes
1. Y a t-il au moins un des Xj
utile pour predire Y ?
2. Sont-ils vraiment tousutiles ?
3. Comment le modele s’ajusteaux donnees ?
4. Avec une nouvelle valeur deX, quelle reponse doit-onpredire ? Precision de laprediction ?
Pour la premiere question, onutilise la F -statistique
F =
(SST− RSS
)/p
RSS/(n− p− 1)∼ Fp,n−p−1
Quantite ValeurResidual Std.Err 50.34R2 0.63F -stat 343.7
Des questions importantes
1. Y a t-il au moins un des Xj
utile pour predire Y ?
2. Sont-ils vraiment tousutiles ?
3. Comment le modele s’ajusteaux donnees ?
4. Avec une nouvelle valeur deX, quelle reponse doit-onpredire ? Precision de laprediction ?
I Choix de co-variables :approche completeComparer les modeleslineaires avec tous lessous-ensembles possibles deco-variables
I Souvent 2p trop grand(log10(240) ≈ 12.0On utilise une methode quene parcourt que certainssous-ensembles. Deuxapproches standardSelections progressive, ouretrograde
I Necessite de repondre a laquestion suivante poureffectuer la comparaison.
Choix de co-variables
Methode progressive(forward)
1. Commencer par le modelenul (a zero co-variables)
2. Ajuster les p regressionslineaires simples et ajouterau modele nul la co-variablequi a le plus petit RSS
3. Ajouter a ce modele a uneco-variable la co-variable quifait baisser le plus le RSS
4. Continuer jusqu’a un critered’arret (par exemple sur lap-value du t-test)
Methode retrograde(backward)
1. Commencer par le modeleavec tous les co-variables
2. Supprimer la variable avec laplus grande p-value —i.e., laco-variable la moinssignificative pour le modele
3. Re-ajuster le modele, etenlever de nouveau laco-variable de plus grandep-value
4. Continuer jusqu’a un critered’arret (par exemple portantsur la valeur de la p-value dela co-variable que l’onenleverait)
Choix de co-variables
I Critere plus systematique pour choisir le modele� optimal � dans ceux que l’on parcourt
I Avec Cp de Mallows, Akaike information criterion (AIC),Bayesian information criterion (BIC), R2 ajuste et validationcroisee (CV)
Evaluer un sous ensembles de covariables
On supposera dans la suite que nous avons m covariables au total eton entend par modele un sous-ensemble de ces covariables de taille p.
Rappelons que
R2 =SSreg
SST= 1− RSS
SST
et
R2adj == 1− RSS /(n− p− 1)
SST /(n− 1)
ou p est le nombre de variables du modele.
I On selectionne le modele avec le R2adj le plus eleve, cela revient a
choisir le sous-ensemble de variables qui minimise
S2 =RSS
n− p− 1
ou p est le nombre de variables du modele.
Evaluer un sous ensembles de covariables
On supposera dans la suite que nous avons m covariables au total eton entend par modele un sous-ensemble de ces covariables de taille p.
Rappelons que
R2 =SSreg
SST= 1− RSS
SST
et
R2adj == 1− RSS /(n− p− 1)
SST /(n− 1)
ou p est le nombre de variables du modele.
I On selectionne le modele avec le R2adj le plus eleve, cela revient a
choisir le sous-ensemble de variables qui minimise
S2 =RSS
n− p− 1
ou p est le nombre de variables du modele.
Choix base sur R2adj
I Souvent le choix base sur R2adj montre un phenomene de
over-fitting.
I Supposons que la valeur maximale de R2adj = 0.692 pour un
sous-ensemble p = 10 de covariables, R2adj = 0.691 pour p = 9 et
R2adj = 0.541 pour un sous-ensemble de p = 8 covariables.
I Il est clairement preferable de choisir le modele a p = 10covariables.
On va faire appel a un critere(s) base(s) sur la vraisemblance.
Choix base sur R2adj
I Souvent le choix base sur R2adj montre un phenomene de
over-fitting.
I Supposons que la valeur maximale de R2adj = 0.692 pour un
sous-ensemble p = 10 de covariables, R2adj = 0.691 pour p = 9 et
R2adj = 0.541 pour un sous-ensemble de p = 8 covariables.
I Il est clairement preferable de choisir le modele a p = 10covariables.
On va faire appel a un critere(s) base(s) sur la vraisemblance.
La vraisemblance
Rappelons que d’apres les hypotheses du modele lineaire
Yi | xi1, . . . , xip ∼ N(β0 + β1xi1 + · · ·+ βpxip, σ
2).
Et
f(yi | xi1, . . . , xip
)=
1
σ√
2πexp
−(yi −
{β0 + β1xi1 + · · ·+ βpxip
})2
2σ2
I Ecrire la vraisemblance
L(β0, β1, . . . , βp, σ
2; y1, . . . , yn)
I Ecrire la log-vraisemblance
`(β0, β1, . . . , βp, σ
2; y1, . . . , yn)
La vraisemblance
Rappelons que d’apres les hypotheses du modele lineaire
Yi | xi1, . . . , xip ∼ N(β0 + β1xi1 + · · ·+ βpxip, σ
2).
Et
f(yi | xi1, . . . , xip
)=
1
σ√
2πexp
−(yi −
{β0 + β1xi1 + · · ·+ βpxip
})2
2σ2
I Ecrire la vraisemblance
L(β0, β1, . . . , βp, σ
2; y1, . . . , yn)
I Ecrire la log-vraisemblance
`(β0, β1, . . . , βp, σ
2; y1, . . . , yn)
Mesurer l’ajustement ou l’adequation du modele
L’estimateur par maximum de vraisemblance de σ2 est donne par
σ2MLE =
RSS
n.
`(β0, β1, . . . , βp, σ
2MLE; y1, . . . , yn
)= −n
2ln(2π)− n
2ln(RSS
n
)− n
2
Critere d’information
Un critere d’information est une quantite qui realise un compromisentre l’ajustement aux donnees (la vraisemblance par exemple) et la
complexite du modele.
Donc
I On peut chercher le modele qui maximise
Ajustement - Penalite
I On peut chercher le modele qui minimise
- Ajustement + Penalite
Critere d’information Cp de Mallows
Le critere d’information note Cp de Mallows associe au modele a pcovariables est donne par
Cp =RSSpS2
+ 2p− n
ou RSSp est la somme des carres des residus du modele en question etS2 est l’estimateur de σ2 dans le modele complet.
Critere d’information AIC
Le critere d’information note AIC (Akaike’s Information Criterion)associe a un modele a p covariables est donne par
AIC = −2`(β0, β1, . . . , βp, σ
2MLE; y1, . . . , yn
)+ 2K
ou K = p+ 2 est nombre de parametre du modele.On peut montrer que
AIC = n log σ2MLE + 2p+ const.
Ce critere est preferable pour la prediction .
Critere d’information BIC
Le critere d’information note BIC (Bayesian Information Criterion)associe a un modele a p covariables est donne par
BIC = −2`(β0, β1, . . . , βp, σ
2MLE; y1, . . . , yn
)+K ln(n)
ou K = p+ 2 est nombre de parametre du modele.
I Ce critere possede de bonnes proprietes theoriques.
I Ce critere est preferable pour l’explication .
Selection de modele
L’idee de chercher le modele (un sous-ensemble de covariables) quiminimise un des trois criteres precedents.
Comment proceder ?
Recherche exhaustive : calculer la valeur du critere pour chaquemodele.
Probleme combinatoire : 2le nombre de covariables modeles encompetition ! !
Selection de modele
L’idee de chercher le modele (un sous-ensemble de covariables) quiminimise un des trois criteres precedents.
Comment proceder ?
Recherche exhaustive : calculer la valeur du critere pour chaquemodele.
Probleme combinatoire : 2le nombre de covariables modeles encompetition ! !
Selection de modele
L’idee de chercher le modele (un sous-ensemble de covariables) quiminimise un des trois criteres precedents.
Comment proceder ?
Recherche exhaustive : calculer la valeur du critere pour chaquemodele.
Probleme combinatoire : 2le nombre de covariables modeles encompetition ! !
Selection de modele en forward
Le modele de depart de la procedure de selection forward est lemodele avec la constante seulement. La procedure consiste a
1. Ajouter separement chaque variable au modele actuel et calculerle critere d’interet (BIC, AIC, ou Cp).
2. Si aucun des nouveaux modeles n’ameliore le critere, alors : stop.
3. Mettre a jour le modele en incluant la covariable qui apporte lameilleure amelioration au sens du critere. Aller a 1.
Selection de modele backward
Le point de depart de la procedure d’elimination backward est lemodele complet incluant toutes les covariables. La procedure consistea
1. Si aucune elimination d’une covariable n’ameliore le critere alors :stop.
2. Mettre a jour le modele en eliminant la covariable qui realise lameilleure amelioration du critere. Aller a 1.
Donnees cancer de la prostate
lcavol log(cancer volume)lweight log(prostate weight)age agelbph log(benign prostatic hyperplasia amount)svi seminal vesicle invasionlcp log(capsular penetration)gleason Gleason scorepgg45 percentage Gleason scores 4 or 5lpsa log(prostate specific antigen)
Stamey, T.A., Kabalin, J.N., McNeal, J.E., Johnstone, I.M., Freiha, F., Redwine,E.A.
and Yang, N. (1989). Prostate specific antigen in the diagnosis and treatment of
adenocarcinoma of the prostate : II. radical prostatectomy treated patients, Journal of
Urology 141(5), 1076–1083.
Comparaison de ces criteres
I Je deconseille le R2 ajuste.
I Cp et AIC sont des criteres qui realisent un comprisbiais-variance. Ils sont donc indiques pour choisir un modele quel’on souhaite utiliser pour predire.
I BIC penalise plus les modeles de grandes dimensions. C’est leseul critere a etre consistent (i.e., a fournir un estimateur quiconverge lorsque n→∞)
I BIC etant plus selectif, on doit le preferer si l’on souhaite unmodele explicatif.
I Lorsque la taille de la base d’apprentissage est grande, prefererBIC (AIC fournit des modeles de trop grandes dimensions)
Selection de variables : quelques remarques
Interpretabilite
I Si le vrai modele ne contient que quelques variables liees a laresponse les algorithmes de selection peuvent retrouver lespredicteurs pertinents.
I Si le vrai modele contient beaucoup de variables trescorrelees les variables selectionnees seront difficiles ainterpreter.
Limites liees a la stabiliteEn presence de predicteurs tres correles ou lorsque n < p, de petitesperturbations des donnees peuvent provoquer de grandesdifferences entre les ensembles de variables selectionnees.
Methode de shrinkage
Regression ridge et Lasso
I Les methodes precedentes de choix de sous-ensembles utilisent lesmoindres carres pour ajuster chacun des modeles en competition.
I Alternativement, on peut ajuster un modele contenant toutes lesp covariables en utilisant une technique que contraint ouregularise les estimations des coefficients, ou de facon equivalente,pousse les coefficients vers 0.
I Il n’est pas evidant de comprendre pourquoi de telles contraintesvont ameliorer l’ajustement, mais il se trouve qu’elles reduisent lavariance de l’estimation des coefficients.
Regression ridge
I Rappelons que la procedure d’ajustement par moindres carresestime les coefficients β0, β1,. . . , βp en minimisant
RSS(β)
=
n∑i=1
(yi − β0 −
p∑j=1
βjxij
)2
.
I En revanche, la regression ridge estime les coefficients enminimisant
n∑i=1
(yi − β0 −
p∑j=1
βjxij
)2
+ λ
p∑j=1
β2j = RSS
(β)
+ λ
p∑j=1
β2j ,
ou λ est un parametre de reglage, a determiner par ailleurs.
Regression ridge (suite)
I Comme les moindres carres, la regression ridge cherche desestimations des coefficients qui s’ajustent sur les donnees, donc arendre RSS
(β)
petit.
I Cependant, le second terme λ∑pj=1 β
2j , appele penalite ridge est
petit lorsque les βj sont proches de 0, et tire donc les estimationsvers ce point.
I Le parametre de reglage λ sert a controler l’impact de cettepenalite sur l’estimation.
I Choisir une bonne valeur de λ est critique pour construire unmodele acceptable. On utilise la validation croisee.
Exemple jeu de donnees n = 1000 et p = 5000
3 4 5 6 7
−0.
050.
000.
050.
10
Log Lambda
Coe
ffici
ents
5000 5000 5000 5000 5000
Regression ridge : normaliser les predicteurs
I La methode des moindres carres standard est insensible a lanormalisation des predicteurs : si l’on multiplie Xj par c, le
coefficient sera remplace par βj/c.
I En revanche, la regression ridge peut changer substantiellementlorsque l’on multiplie un predicteur par une constante, a cause dela norme quadratique dans le terme de penalite.
I C’est pourquoi il est vivement recommander de toujoursstandardiser les predicteurs (marginalement) avant d’utiliser laregression ridge.
Pour la regression ridge ?
Compromis biais-variance
Donnees simulees : n = 50, p = 45, tous de coefficients non nuls. Biaisau carre (en noir), variance (en vert) et erreur de test quadratique (enviolet) pour la regression ridge.Droite horizontale : erreur minimale.
Le Lasso : Least Absolute Shrinkage and Selection Operator
I La regression ridge a un inconvenient evident : contrairement a laselection de variable, la regression ridge inclut tous lespredicteurs dans le modele final.
I Le Lasso est une alternative relativement recente qui repond acette critique. On minimise en fait
n∑i=1
(yi − β0 −
p∑j=1
βjxij
)2
+ λ
p∑j=1
∣∣βj∣∣ = RSS(β)
+ λ
p∑j=1
∣∣βj∣∣,I On parle de penalite `1 au lieu de penalite `2 (ou quadratique)
Le Lasso (suite)
I Comme pour la regression ridge, le Lasso tire les estimations descoefficients vers 0.
I Cependant, dans le cas du Lasso, la penalite `1 a pour effet deforcer certains coefficients a s’annuler lorsque λ est suffisammentgrand.
I Donc, le Lasso permet de faire de la selection de variable.
I On parle de modele creux (sparse), c’est-a-dire de modeles quin’impliquent qu’un sous ensemble des variables.
I Comme pour la regression ridge, choisir une bonne valeur de λest critique. Proceder par validation ou validation croisee.
Exemple : n = 1000 et p = 5000
−4 −3 −2 −1 0
0.0
0.2
0.4
0.6
0.8
1.0
Log Lambda
Coe
ffici
ents
528 303 27 15 11
Qu’est qui fait marcher le Lasso ?
Avec les multiplicateurs de Lagrange, on peut voir
I La regression ridge comme
minimise
n∑i=1
(yi−β0−
p∑j=1
βjxij
)2
sous la contrainte
p∑j=1
β2j ≤ s
I Le Lasso comme
minimise
n∑i=1
(yi−β0−
p∑j=1
βjxij
)2
sous la contrainte
p∑j=1
∣∣βj∣∣ ≤ s
Le Lasso en image
Comparaison du Lasso et de la regression ridge
A gauche, biais au carre (noir), variance (en vert) et erreurquadratique de test (violet) pour le Lasso sur donnees simulees.
A droite, comparaison du biais au carre, de la variance et de l’erreurde test quadratique pour le Lasso (traits plains) et la regression ridge(pointilles)
Comparaison du Lasso et de la regression ridge (suite)
A gauche, biais au carre (noir), variance (en vert) et erreurquadratique de test (violet) pour le Lasso sur donnees simulees (ouseulement deux predicteurs sont influents).
A droite, comparaison du biais au carre, de la variance et de l’erreurde test quadratique pour le Lasso (traits plains) et la regression ridge(pointilles)
Conclusions
I Ces deux exemples montrent qu’il n’y a pas de meilleur choixuniversel entre la regression ridge et le Lasso.
I En general, on s’attend a ce que le Lasso se comporte mieuxlorsque la reponse est une fonction d’un nombre relativementfaible de predicteurs.
I Cependant, le nombre de predicteurs relies a la reponse n’estjamais connu a priori dans des cas concrets.
I Une technique comme la validation croisee permet de determinerquelle est la meilleure approche.
Choisir le parametre de reglage λ
I Comme pour les methodes du debut, la regression ridge et leLasso doivent etre calibre pour determiner le meilleur modele.
I C’est-a-dire qu’il faut une methode qui choisisse une valeur duparametre de reglage λ, ou de la contrainte s.
I La validation croisee fournit une facon simple d’attaquer ceprobleme. On fixe une grille de valeurs de λ possible et sur cettegrille, on estime l’erreur de test par validation croisee.
I On choisit alors la valeurs de λ pour laquelle cette estimation del’erreur de test est la plus faible.
I Enfin, le modele est re-ajuste pour utiliser toutes les observationsde la base d’entrainement avec la valeur de λ precedemmentobtenue.
Le zoo des methodes lasso I
I The eslaticnet Zou et Hastie 2005 vise a activer les variablescorrelees simultanement
βe-net
= arg minβ∈Rp
{1
2RSS
(β)
+ λ(α‖β‖1 + (1− α)‖β‖2
)}I Adaptive/Weighted-Lasso pondere chaque composante du
vecteur de coefficients
βlasso
= arg minβ∈Rp
{1
2RSS
(β)
+ λ‖w ◦ β‖1}.
Le zoo des methodes lasso II
I Group-Lasso Yuan and Lin 2006 vise a activer les variables pargroupes
βgroup
= arg minβ∈Rp
{1
2RSS
(β)
+ λ
K∑k=1
wk‖βGk‖1
}
I Cooperative-Lasso Chiquet et al. 2010 vise a activer les variables pargroupes de meme signe
βcoop
= arg minβ∈Rp
{1
2RSS
(β)
+ λ
K∑k=1
wk
(‖β+Gk‖1 + ‖β−Gk‖1
)}
Bilan
I Les methodes de selection de modeles sont essentielles pourl’analyse de donnees, et l’apprentissage statistique, en particulieravec de gros jeu de donnees contenant de nombreux predicteurs.
I Les questions de recherches qui donnent des solutions creuses(parcimonieuses, ou sparses), comme le Lasso, sont d’actualite.
Classification
Regression logistique
Notons p(X) = P(Y = 1|X) etconsiderons un seul predicteur X.La regression logistique pose
p(X) =exp(β0 + β1X)
1 + exp(β0 + β1X)
qui est toujours entre 0 et 1 ! Ona alors
log
(p(X)
1− p(X)
)= β0 + β1X
(transformation logit)
Estimation par maximum devraisemblance Lavraisemblance
L(β0, β1
)=∏i:yi=1
p(xi)∏i:yi=0
[1−p(xi)
]que l’on maximise pour obtenirβ0 et β1 (Ordinateur)La plupart des logiciels destatistique le font (glm de R parexemple)
Regression logisitque a plusieurs co-variables
log
(p(X)
1− p(X)
)= β0 + β1X1 + · · ·+ βpXp
Exemple : maladie cardiaque en Afrique du Sud
I 160 cas d’infarctus du myocarde (MI) et 302 cas de controle(homme entre 15-64 ans), de la province de Cap-Occidental enAfrique du Sud, au debut des annees 80
I Prevalence tres elevee dans cette region : 5.1 %
I Mesure de 7 predicteurs (facteurs de risque), montres dans lapage suivante
I Le but est d’identifier l’influence et la force relative des facteursde risque
I Cette etude fait partie d’un programme de sante publique dont lebut etait de sensibiliser la population sur une regime plusequilibre
sbp
0 10 25 1.0 1.6 0 50 150
100
160
220
010
25
tobacco
ldl
26
12
1.0
1.6
famhist
obesity
1530
45
050
150
alcohol
100 160 220 2 6 12 15 30 45 20 40 60
2040
60
age
orange : MIbleu :controlefamhist : 1 siantecedentsfamiliaux
Exemple (suite)> heartfit <- glm(chd ~ .,data=heart ,family=binomial)
> summary(heartfit)
Call:
glm(formula = chd ~ ., family = binomial, data = heart)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.1295997 0.9641558 -4.283 1.84e-05 ***
sbp 0.0057607 0.0056326 1.023 0.30643
tobacco 0.0795256 0.0262150 3.034 0.00242 **
ldl 0.1847793 0.0574115 3.219 0.00129 **
famhistPresent 0.9391855 0.2248691 4.177 2.96e-05 ***
obesity -0.0345434 0.0291053 -1.187 0.23529
alcohol 0.0006065 0.0044550 0.136 0.89171
age 0.0425412 0.0101749 4.181 2.90e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 596.11 on 461 degrees of freedom
Residual deviance: 483.17 on 454 degrees of freedom
AIC: 499.17
Echantillonnage du controle et regression logistique
I Dans les donnees d’Afrique du Sud, il y a 160 MI et 302controle — π = 0.35 des cas. Cependant, la prevalencedes MI dans la region est de π = 0.05.
I Ce biais d’echantillonnage permet d’estimer les βj,j 6= 0, avec plus de precision (si modele correct). Maisl’estimation de β0 doit etre corrigee.
I Une simple transformation permet de le faire :
β0∗
= β0 + log
(π
1− π
)− log
(π
1− π
)I Souvent, les cas pathologiques sont rares et on les prend
tous. On peut sur-echantillonner jusqu’a 5 fois plus queles cas temoins. Au dela, peu de gain dans la varianced’erreur d’echantillonnage.
Gain de variance par biais d’echantillonnage de donneesbinaires
Au dela d’unfacteur 5 desur-representationdes cas pa-thologiques,le gain n’estplusinteressant.
Regression logistique a plus de deux modalites
Jusqu’a maintenant, nous avons discute de regressionlogistique pour expliquer un Y a deux modalites. Il estfacile de generaliser a plus de deux classes. Une possibilite(utilisee dans la bibliotheque glmnet de R) est la formesymetrique
P(Y = k|X) =exp(β0k + β1kX1 + · · ·+ βpkXp∑K`=1 exp(β0` + β1`X1 + · · ·+ βp`Xp
Il y a donc une fonction lineaire par classe ou modalite.En fait, ce modele est sur-parametre, et comme dans le casde 2 classes, on peut supprimer l’une des fonctions lineaireset seules (K − 1) sont utiles. Le verifier !La regression logistique multi-classe porte plusieurs noms.On parle parfois de regression multinomiale.
Selection de modeles
Revenons a l’expression
minimiser(β0,β)∈Rp+1
{− 1
N`(β0,β
)+ λPα
(β)}
I `(β0,β
)= 1
2σ2 ‖y − β01−Xβ‖22 + c pour une regression lineairemultiple.
I Dans le cas d’une regression logistique
`(β0,β
)=
N∑i=1
{yi(β0 + β′xi
)− log
(1 + eβ0+β′xi
)}I La terme de regularisation (de penalite)
Pα(β)
= α‖β‖1 + (1− α)‖β‖2
Lasso si (α = 1) ridge si α = 1.
Deux exemples en grande dimension
Allons faire des testes sous R
I Jeu de donnees leukemia du package spikeslab : les genes exprimesdifferentiellement exprimes pour les deux types de leucemie AcuteMyeloblastic Leukemia et Acute Lymphoblastic Leukemia. n = 72et p = 3571.
I Jeu de donnees nki du package BreastCancerNKI debioconductor : determiner les genes exprimes sous la conditionestrogen receptor status actif. n = 337 et p = 24481
Analyse discriminante
L’idee est modeliser la loi de Xdans chaque classe separement,et d’utiliser le theoreme de Bayespour obtenir P(Y = k|X).Lorsque l’on utilise des loisgaussiennes pour chaque classes,cela donne l’analysediscriminante lineaire ouquadratique.Cette approche est plus generale,et l’on pourrait utiliser d’autresdistributions. Concentrons nousd’abord sur le cas gaussien.
Notons
I fk(x) la densite de Xsachant que l’on est dans laclasse k ;
I πk la probabilite (marginale)de la classe k
On a alors
P(Y = k|X = x) =πkfk(x)∑K`=1 π`f`(x)
.
Classifier dans la classe de densite la plus elevee
On classifie une nouvelle observation dans la classe de densite la pluselevee.Lorsque les frequences (marginales) des classes sont differentes, il fautprendre en compte cette difference, et l’on compare les πkfk(x).Sur l’exemple ci-dessus, la classe des roses a une probabilite marginaleplus elevee. La frontiere entre les deux decisions s’est deplacee sur lagauche.
Pourquoi utiliser l’analysediscriminante lineaire ?
I Lorsque les classes sont bienseparees, l’estimation desparametres de la regressionlogistique devient instable.L’analyse discriminantelineaire (LDA) ne souffre pasde ce probleme.
I Lorsque n est petit et ladistribution de X est a peupres gaussienne dans chaqueclasse, LDA est plus stableque la regression logistique.
I LDA est aussi populairelorsqu’il y a plus de deuxmodalites pour Y car ellepermet de projeter lesdonnees dans des plansseparent les groupes.
En dimension 1On cherchepk(x) = P(Y = k|X = x) avec
fk(x) =1√
2πσkexp
(−1
2
(x− µkσk
)2)
LDA suppose queσ1 = · · · = σK = σ.Ce qui donne
pk(x) =πke− 1
2
(x−µkσ
)2
∑K`=1 π`e
− 12
(x−µ`σ
)2
apres avoir simplifier par1/√
2πσ en facteur partout.
En dimension 1On cherchepk(x) = P(Y = k|X = x) avec
fk(x) =1√
2πσkexp
(−1
2
(x− µkσk
)2)
LDA suppose queσ1 = · · · = σK = σ.Ce qui donne
pk(x) =πke− 1
2
(x−µkσ
)2
∑K`=1 π`e
− 12
(x−µ`σ
)2
apres avoir simplifier par1/√
2πσ en facteur partout.
Pour construire un classificateuren X = x, il faut maintenantchercher quel pk(x) est le plusgrand.Noter que les denominateurs dedependent pas de k.En passant au log, il suffit decomparer les
δk(x) = x · µkσ2− µ2
k
2σ2+ log(πk).
Ces fonctions lineaires de xs’appellent les scores de Fisher.Si K = 2, et π1 = π2 = 0.5,verifier que la frontiere dedecision est en
x =µ1 + µ2
2.
Analyse discriminante : estimation
Exemple simule avec µ1 = −1.5, µ2 = 1.5, π1 = π2 = 0.5, et σ2 = 1.Typiquement, on ne connait pas ces parametres et on doit lesapprendre sur des donnees. Dans ce cas, on estime simplement lesparametres et on � plug � les estimations dans les formules theoriques.
Analyse discriminante lineaire (suite)
πk = nk/n
µk =∑i:yi=k
xi
/nk
σ2k =
∑i:yi=k
(xi − µk
)2/(nk − 1)
σ2 =
K∑k=1
nk − 1
n−K· σ2
k
En dimension p > 1, les formulesse generalisent.Rappelons
f(x) =1
(2π)p/2|Σ|1/2e
12 (x−µ)TΣ−1(x−µ)
Les scores deviennent
δk(x) = xTΣ−1µk−1
2µTk Σ−1µk+log(πk)
qui est toujours une fonctionlineaire en x.
Exemple simule en dimension 2
Exemple simule π1 = π2 = π3 = 1/3.Les lignes pointillees : frontieres theoriquesLes lignes pleines : frontieres estimees par LDA
Autre exemple : les Iris de Fisher
Sepal.Length
2.0 3.0 4.0 0.5 1.5 2.5
4.5
5.5
6.5
7.5
2.0
3.0
4.0
Sepal.Width
Petal.Length
12
34
56
7
4.5 5.5 6.5 7.5
0.5
1.5
2.5
1 2 3 4 5 6 7
Petal.Width
4 variablesexplicatives3 especes50observations/classesbleu : � setosa �
orange :� versicolor �
vert : � virginica �
Plan discriminant des Iris
Lorsqu’il y a K groupes, LDA fournit une projection de dimension(K − 1) qui separe au mieux les nuages de points.(K − 1) ? Essentiellement parce les centres des classes µ1, µ2 et µ3 (ouplutot leurs estimations) definissent un plan dans l’espace.
Autres formes d’analyse discriminante
P(Y = k|X = x) =πkfk(x)∑K`=1 π`f`(x)
Lorsque les fk(x) sont des gaussiennes de meme variance,LDA.En changeant la forme des fk(x), on obtient d’autresclassifieurs.
I Avec des gaussiennes, mais de variances distinctes, onobtient l’analyse discriminante quadratique
I Avec des fk(x) =∏p
j=1 fjk(xj) qui se factorisent parco-variables, on obtient naive Bayes
I Beaucoup d’autres cas, y compris non-parametriques.
Analyse discrimante quadratique
δk = −1
2(x− µk)TΣ−1
k (x− µk) + log(πk)
Comme les Σk sont differents, des termes quadratiquesapparaissent.
Naive Bayes
Suppose que les co-variables sont independantesconditionnellement a chaque classe.Utile quand p grand et que des methodes comme QDA ouLDA tombent.
I Le cas gaussien revient a supposer que les Σk sontdiagonales
δk(x) ∝ log
(πk
p∏j=1
fkj(xj)
)= −1
2
p∑j=1
(xj − µjk)2
σ2kj
+log(πk)
I peut servir dans le cas mixte ou certaines co-variablessont qualitatives. Dans ce cas, on replace les densitesintra-classes correspondantes par des frequencesintra-classes.
Meme si l’hypothese de depart semble tres forte, merited’etre teste car donne souvent de bons resultats.
Regression logistique ou LDA ?
Pour un probleme a deux classes, LDA verifie
log
(p1(x)
1− p1(x)
)= log
(p1(x)
p2(x)
)= c0 + c1x1 + · · ·+ cPxp
Meme forme que pour la regression logistique.La difference est dans la facon dont sont estimes lesparametres.
I La regression logistique utilise des vraisemblancesconditionnelles et ne modelise que P(Y = k|X) — onparle d’apprentissage discriminant
I LDA utilise une vraisemblance complete basee sur la loijointe de (X, Y ) — on parle d’apprentissage generatif
I Malgre ces differences, en pratique, les resultats sontsouvent similaires.
Conclusion et. . .
I La regression logistique est tres populaire pour laclassification, surtout lorsqu’il n’y a que K = 2 classes
I LDA est utile, meme lorsque n est petit, ou lorsque lesclasses sont bien separees et que l’hypothese gaussienneest raisonnable. Et K > 2
I Naive Bayes est utile lorsque p est grand
I En petite dimension (p < 4), et avec beaucoupd’observations, on peut faire de l’analyse discriminantenon-parametrique, en remplacant les gaussiennes pardes densites intra-classes estimees (par une methode anoyau)
I Autres methodes (modeles additifs generalises, SVM,random forest, etc.) dans les cours suivants.
Dendrologie
Methodes basees sur des arbres
I Nous decrivons ici des methodes basees sur des arbres pour laclassification et la regression.
I Cela implique de stratifier ou segmenter l’espace des predicteursen un certain nombre de regions simples
I Comme l’ensemble des regles des partitionnement peuvent etreresumees par un arbre, ce type d’approches sont connues commedes methodes a arbres de decision
Pours et contres
I Les methodes basees sur des arbres sont simples et utiles pourl’interpretation.
I Cependant, elles ne sont pas capables de rivaliser avec lesmeilleures approches d’apprentissage supervise en terme dequalite de prediction
I Nous discuterons donc aussi de bagging, forets aleatoires (randomforests), et boosting. Ces methodes developpent de nombreuxarbres de decision qui sont ensuite combines pour produire unereponse consensus.
Les bases des arbres de decision
I Les arbres de decision sont utiles aussi bien pour des problemesde regression que de classification.
I Nous commencons par presenter des problemes de regression etnous viendrons ensuite a la classification.
Donnees de salaire au baseball : comment les stratifier ?Le salaire est code par des couleurs : les faibles valeurs sont en bleu,puis vert, les plus fortes valeurs en orange puis rouge.
L’arbre de decision sur ces donnees
Details sur la precedente figure
I C’est un arbre de regression pour predire le log des salaires desjoueurs, base surI l’experience (Years)I le nombre de succees (Hits)
I Pour chaque nœud interne, l’etiquette (de la forme Xj < tk)indique la branche de gauche emanant du nœud, et la branchedroite correspond a Xj ≥ tk.
I Cet arbre a deux nœuds internes et trois nœuds terminaux oufeuilles. Le nœud le plus haut dans la hierarchie est la racine.
I L’etiquette des feuilles est la reponse moyenne des observationsqui satisfont aux criteres pour la rejoindre.
Resultats
I En tout, l’arbre distingue trois classes de joueurs en partitionnantl’espace des predicteurs en trois regions :R1 = {X : Years < 4.5}, R2 = {X : Years ≥ 4.5, Hits < 117.5}et R3 = {X : Years ≥ 4.5, Hits ≥ 117.5}.
Interpretation des resultats
I Years est le facteur le plus important pour expliquer Salary : lesjoueurs de moindre experience gagnent moins que les joueursexperimentes
I Sachant qu’un joueur a peu d’experience, le nombre de Hits
l’annee passee n’influence pas son salaire
I Mais, parmis les joueurs experimentes, le nombre de Hits del’annee passee affecte son salaire (positivement)
I C’est surement une simplification de la realite, mais compare aun modele de regression (lineaire par exemple), la fonction deregression est simple a decrire, interpreter et expliquer.
Details sur la construction de l’arbre
Algorithme CART (Classification and Regression Trees)
1. Division de l’espace des predicteurs en J regions distinctes, nonrecouvrantes : R1, R2, . . . RJ .
2. Pour toute nouvelle observation des predicteurs X = x0, onregarde dans quelle region on tombe, disons R`. La prediction estla moyenne des valeurs observees dans la partie de l’ensembled’entrainement qui tombent dans R`.
Details sur la construction de l’arbre (suite)
I Pour limiter l’espace des partitions possibles, les arbres dedecision divisent l’espace en rectangles ou boıtes paralleles auxaxes.
I Le but est de trouver les boıtes R1, . . . , RJ qui minimisent uncritere des moindres carres, ici
SSE =
J∑j=1
∑i:xi∈Rj
(yj − yRj
)2
,
ou yRj est la reponse moyenne sur les observationsd’entrainement qui tombent dans Rj .
Details sur la construction de l’arbre (suite)
I Malheureusement, il est impossible de traverser l’ensemble despartitionnements de l’espace des predicteurs en J boıtes.
I Pour cette raison, on met en place un algorithme glouton,top-down qui construit l’arbre binaire de facon recursive.
I L’algorithme demarre a la racine de l’arbre et separe ensuitel’espace des predicteurs en ajoutant progressivement des nœuds.
I On parle d’algorithme glouton car a chaque etape de laconstruction de l’arbre, on construit la meilleur division possibledu nœud en deux sous-nœuds.
L’algorithme de construction de l’arbre T0 (phase 1)
InitialisationNœud racine : on place l’ensemble de l’echantillon d’estimation a laracine de l’arbre
Recurrence sur chaque nœudOn partionne chaque nœud en deux classes :
R1(j, s) = {X : Xj ≤ s}, R2(j, s) = {X : Xj > s}
en cherchant j et s qui minimisent
∑xi∈R1(j,s)
(yi − c1
)2
+∑
xi∈R2(j,s)
(yi − c2
)2
ou cm = ave(yi
∣∣∣xi ∈ Rm(j, s))
.
Algorithme (suite...)
Phase 1 : Construction de T0
Initialisation[. . . ]
Recurrence sur chaque nœud[. . . ]
TerminaisonOn arrete de diviser un nœud de T0 lorsqu’il y a peu d’observations(disons 5).
Probleme de sur-apprentissage• un arbre trop profond sur-apprend• un arbre trop peu profond n’est pas assez precisD’ou � Elagage de T0 �
Algorithme (suite...)
Phase 1 : Construction de T0
Initialisation[. . . ]
Recurrence sur chaque nœud[. . . ]
TerminaisonOn arrete de diviser un nœud de T0 lorsqu’il y a peu d’observations(disons 5).
Probleme de sur-apprentissage• un arbre trop profond sur-apprend• un arbre trop peu profond n’est pas assez precisD’ou � Elagage de T0 �
Sur-apprentissage
L’arbre T0 obtenu est trop profond. Faire un compromis entre
I sur-apprentissage (trop profond)
I erreur de prediction trop grande (trop court)
Introduire un parametre α qui regle le compromis, et minimiser lecritere penalise defini pour T ⊂ T0 par
Cα(T ) :=
|T |∑m=1
Nm(T )Qm(T ) + α|T |,
ou |T | = nombre de feuilles de T ; Nm(T ) = Card {xi ∈ Rm(T )} ;
Qm(T ) =1
Nm(T )
∑xi∈Rm(T )
(yi − cm(T ))2 ;
cm(T ) = ave(yi
∣∣∣xi ∈ Rm(T ))
Algorithme (suite. . . )
Phase 2 : Elagage
Calcul des minima Tα du critere penaliseOn part de T0 et on construit une suite d’arbres iterativement. Achaque etape, on supprime le nœud interne de tel sorte a produire laplus petite augmentation de∑
m
Nm(T )Qm(T )
et l’on s’arrete lorsque l’arbre est reduit a un seul nœud (racine).Tous les minima T = Tα des fonctions T 7→ Cα(T ) sont dans cettesuite
Calibration de αPar validation croisee a 5 ou 10 blocs
Algorithme (suite. . . )
Phase 2 : Elagage
Calcul des minima Tα du critere penaliseOn part de T0 et on construit une suite d’arbres iterativement. Achaque etape, on supprime le nœud interne de tel sorte a produire laplus petite augmentation de∑
m
Nm(T )Qm(T )
et l’on s’arrete lorsque l’arbre est reduit a un seul nœud (racine).Tous les minima T = Tα des fonctions T 7→ Cα(T ) sont dans cettesuite
Calibration de αPar validation croisee a 5 ou 10 blocs
Algorithme (suite. . . et fin !)
Phase 2 : Elagage
Calcul des minima Tα du critere penaliseOn part de T0 et on construit une suite d’arbres iterativement. Achaque etape, on supprime le nœud interne de tel sorte a produire laplus petite augmentation de∑
m
Nm(T )Qm(T )
et l’on s’arrete lorsque l’arbre est reduit a un seul nœud (racine).Tous les minima T = Tα des fonctions T 7→ Cα(T ) sont dans cettesuite
Calibration de αPar validation croisee a 5 ou 10 blocs
FIN
Arbres de classification
I Similaires aux arbres de regression, sauf qu’ils sont utilises pourpredire une reponse discretes
I Pour un arbre de classification, on predit a l’aide la classe la plusfrequente dans cette feuille parmi les donnees d’entrainement.
Difference avec la regression
Y ∈ {1, 2, . . . ,K},donc f(x) ∈ {1, 2, . . . ,K}
Il faut changer le critere des moindres carres en un critere plusadapte, lie a la mesure des erreurs de classification.
Si la feuille m represente la region Rm avec Nm observations, ondefinit
pmk =1
Nm
∑xi∈Rm
1{yi = k},
la proportion d’observation du nœud m appartenant a la ke classe.
Alors la valeurs de f sur Rm est cm = argmaxk pmk (vote a lamajorite simple).
Mesure d’erreur
Les differentes mesures d’impurete Qm(T ) d’une feuille m sont
I erreur de classification :1
Nm
∑xi∈Rm
1{yi 6= cm} = 1− pmcm
I Index de Gini :∑k 6=k′
pmkpmk′ =∑k
pmk(1− pmk)
I Entropie : −∑k pmk log pmk.
Le critere que l’on minimise pour construire T0 est
|T |∑m=1
Nm(T )Qm(T )
On penalise ensuite comme pour la regression.
Mesure d’erreur
Les differentes mesures d’impurete Qm(T ) d’une feuille m sont
I erreur de classification :1
Nm
∑xi∈Rm
1{yi 6= cm} = 1− pmcm
I Index de Gini :∑k 6=k′
pmkpmk′ =∑k
pmk(1− pmk)
I Entropie : −∑k pmk log pmk.
Le critere que l’on minimise pour construire T0 est
|T |∑m=1
Nm(T )Qm(T )
On penalise ensuite comme pour la regression.
Mesure d’erreur
Les differentes mesures d’impurete Qm(T ) d’une feuille m sont
I erreur de classification :1
Nm
∑xi∈Rm
1{yi 6= cm} = 1− pmcm
I Index de Gini :∑k 6=k′
pmkpmk′ =∑k
pmk(1− pmk)
I Entropie : −∑k pmk log pmk.
Le critere que l’on minimise pour construire T0 est
|T |∑m=1
Nm(T )Qm(T )
On penalise ensuite comme pour la regression.
Bibliotheque rpart de R
Lire la � vignette � de la bibliotheque
vignette("longintro", package="rpart")
La commande rpart fait presque tout.
Avantages et inconvenients des arbres
N Les arbres sont faciles a expliquer a n’importe qui. Ils sont plusfaciles a expliquer que les modeles lineaires
N Les arbres peuvent etre representes graphiquement, et sontinterpretables meme mais des non-experts
N Ils peuvent gerer des predicteurs discrets sans introduire desvariables binaires
H Malheureusement, ils n’ont pas la meme qualite predictives queles autres approches de ce cours.
Cependant, en agregeant plusieurs arbres de decision, lesperformances predictives s’ameliorent substantiellement.
Bagging
I L’agregation bootstrap ou bagging est methode de reduction dela variance en apprentissage statistique. Elle est particulierementutile sur les arbres de decision.
I Rappelons que, sur un ensemble de n observations independantesZ1, . . . , Zn, chacune de variance σ2, la variance de la moyenne Zest σ2/n.
I En pratique, il n’est pas possible de moyenner des arbres dedecision construits sur de multiples ensembles d’entrainement(pas assez de donnees observees)
Bagging (suite)
I Au lieu de cela, on peut bootstrapper en re-echantillonnantplusieurs fois les donnees d’entrainement.
I Alors, a partir de B echantillons bootstrap, on entraine unemethode d’apprentissage pour ajuster B fonctions de regressions,notees f∗b(x), b = 1, . . . , B
I La fonction de regression � bagguee � est alors
fbag(x) =1
B
B∑b=1
f∗b(x)
Bagging (suite)
I Sur un probleme de classification, f∗b(x) renvoie une classepossible pour chaque echantillon bootstrap b.
I La decision finale fbag(x) se prend par un vote a la majoritesimple parmi les B predictions des classifieurs bootstrap.
I Sur des gros jeux de donnees d’entrainement, faire parfois dusous-echantillonnage bootstrap.
Erreur out-of-bag
I Il y a une facon simple d’estimer l’erreur de test quand on fait dubagging.
I La cle du bagging est l’entrainement de nombreux f(x) sur desechantillons bootstraps. On peut donc utiliser les observationshors du be bootstrap pour evaluer chaque f∗b(x)
I Ce qui donne l’algorithme ci-dessous.
1. Pour chaque observation (xi, yi), calculer yoobi la prediction en
n’utilisant que les estimateurs f∗b(x) qui n’ont pas vu cetteobservation dans leur entrainement
2. Evaluer l’erreur entre yoobi et les yi (erreur quadratique moyenne
ou taux de mauvaise classification)
Forets aleatoires (random forests)
I Les forets aleatoires ameliorent le bagging des arbres CART ende-correlant ces arbres. Ce qui permet de mieux reduire lavariance
I Comme precedemment, on construit une suite d’arbres dedecisions sur des echantillons bootstraps
I Au lieu d’utiliser l’algorithme CART, on utilise un algorithmerandomise.
I Au moment de diviser un nœud, cet algorithme ne regarde que mpredicteurs parmi les p > m predicteurs, tires au hasard.
I Une nouvelle selection de predicteurs est faite a chaque divisionde nœud.
I Il est inutile d’elaguer les arbres de decision, le bagging se charged’eviter les erreurs de sur-apprentissage.
Parametres de reglage
I Il faut choisirI le nombre de predicteurs m (par defaut
√p en regression) tires a
chaque division de nœudI le nombre total d’arbresI la taille des sous-echantillons bootstraps si gros jeu de donnees
I On peut s’appuyer sur l’erreur out-of-bag
Exemple sur donnees d’expression de 500 genes
I Resultats de forets aleatoires pour predire les 15 classes a partirdu niveau d’expression de 500 genes
I L’erreur de test (evaluee par OOB) depend du nombre d’arbres.Les differentes couleurs correspondent a differentes valeurs de m.
I Les forets aleatoires ameliorent significativement le taux d’erreurde CART (environ 45.7%)
Boosting
I Comme le bagging, boosting est une approche generale qui peuts’appliquer a de nombreuses methodes de regression etclassification. Nous presenterons ici uniquement le boosting surdes arbres de decision.
I Rappelons que le bagging cree de multiples copies du jeu dedonnees par bootstrap, ajuste des arbres de decision sur chacunedes copies, et les combinent pour creer un seul modele deprediction.
I Ainsi, chaque arbre est construit sur un echantillon bootstrapindependamment des autres arbres
I Le boosting fonctionne un peu de la meme facon, sauf que lesarbres sont construits iterativement : chaque nouvel arbre utilisel’information des arbres precedemment entraines.
Algorithme de boosting pour les arbres de regression
1. Fixer f(x) = 0 et ri = yi pour tout i de l’ensembled’entrainement.
2. Pour b = 1, . . . , B faireI Ajuster un arbre fb a d nœuds internes (d+ 1 feuilles) pour
predire les ri avec xiI Mettre a jour f en ajoutant ce nouvel arbre (a un coefficient λ de
reduction pres)f(x)← f(x) + λfb(x)
I Mettre a jour les residus
ri ← ri − λfb(xi)
3. Retourner le modele
f(x) =
B∑b=1
λf b(x).
Quelle est l’idee sous-jacente ?
I Contrairement a l’ajustement d’un grand arbre de decision auxdonnees (d’entrainement), ce qui revient a s’ajuster fortementaux donnees (avec potentiellement du sur-apprentissage), leboosting apprend lentement.
I Etant donne le modele courant, on ajuste un arbre de decisionaux residus de ce modele. Nous ajoutons ce nouvel arbre dedecision a la fonction de regression estimee et corrigeons lesresidus en consequence.
I Chacun de ces arbres est relativement petit, avec peu de nœudsterminaux, determines par un parametre de reglage d del’algorithme
I En ajoutant progressivement ces arbres, on ameliore fprogressivement, dans les zones ou les performances de la versioncourante ne sont pas bonnes. Le parametres λ est une sorte deparametres de � shrinkage � qui regle la vitesse a laquelle onapprend.
Boosting pour la classification
I Le boosting pour la classification fonctionne dans le meme esprit,mais est un peu plus complique. Nous ne donnerons pas dedetails ici.
I Voir, par exemple, le chapitre de 10 de ESL
I Le package R gbm (gradient boosted models) permet d’utiliser leboosting dans de nombreux problemes de classification etregression.
Donnees d’expression de genes
I La figure precedente presente les resultats du boosting et derandom forest sur le jeu de donnees d’expression de genes
I L’erreur de test est representee en fonction du nombres d’arbres.Pour les deux modeles ajustes par boosting, λ = 0.01. Les arbresde profondeur 1 battent legerement ceux de profondeur 2, maistous deux sont meilleurs que les forets aleatoires. (L’erreurstandard sur ce taux de mauvaise classification estime est de0.02, de telle sorte que la difference n’est pas tres significative).
I La meilleure erreur de test avec un seul arbre est de 24%
Reglage des parametres du boosting
1. Le nombre d’arbres B. Contrairement au bagging et auxforets aleatoires, le boosting peut conduire a un sur-apprentissagesi B est trop grand, meme si il faut des grandes valeurs de Bpour le constater.
2. Le parametre de shrinkage λ. Il controle la vitesse a laquellele boosting apprend. Les valeurs typiques sont 0.01 ou 0.001,mais le meilleur choix depend du probleme. De tres petitesvaleurs de λ peuvent necessiter l’ajustement de nombreux arbres.
3. Le nombre de nœuds internes d. Il controle la complexite deselements ajoutes. Souvent, d = 1 est une bonne valeur, auquel casl’arbre est en forme de queue de cerise.
Mesure de l’importance des variables
I Pour les arbres de regression baggues ou pour random forest, oncollecte le nombre moyen (moyenne sur les arbres agreges) de foisqu’un predicteur intervient dans l’arbre. Une grande valeur
I Pour les arbres de classification, on ajoute la quantite completede l’indice de Gini qui a baisse par separation suivant un certainpredicteur, et on moyenne sur la foret.
Resume
I Les arbres de decision sont des modeles simples et interpretables.
I Cependant, ils fournissent souvent de mauvais resultats comparesa d’autres methodes.
I Bagging, random forest ou boosting sont de bonne methodes pourameliorer la qualite de la prediction des arbres de decision. Cesmethodes agregent de nombreux arbres entraines sur les donneeset ensuite combinent ces arbres pour construire la decision finale.
I Ces deux dernieres methodes (les forets aleatoires et le boosting)font parmi de l’etat de l’art actuel des methodes d’apprentissagesupervise. Cependant, le classifieur ou la fonction de regressionproduite peut etre difficile a interpreter.
Support Vector Machines (SVM)
SVM attaque le probleme de classification entre deux classes de facondirecte
On essaie de trouver un (hyper)plan qui separe les classes dansl’espace des predicteurs
Faute d’y arriver directement,
I on adoucit la definition de � separer � et
I on enrichit l’espace des covariables de sorte a rendre la separationpossible
Qu’est-ce qu’un hyperplan ?
I Un hyperplan d’un espace de dimension p est un sous-espaceaffine de dimension p− 1.
I En general, l’equation d’un hyperplan est de la forme
β0 + β1X1 + · · ·+ βpXp = 0
I En dimension p = 2, un hyperplan est une droite.
I Si β0, il passe par l’origine.
I Le vecteur (β1, β2, . . . , βp) est un vecteur normal. Il pointe dansune direction orthogonale a l’hyperplan
Hyperplan en dimension 2
Hyperplan de separation
I Si f(X) = β0 + β1X1 + · · ·+ βpXp, alors f(X) > 0 pour lespoints d’un cote de l’hyperplan et f(X) < 0 de l’autres cote.
I Si l’on suppose que les points Yi = +1 sont en bleu et Yi = −1 enmauve, alors Yi · f(Xi) > 0 pour tout i. De plus f(X) = 0 definitun hyperplan separateur.
Classifier de marge maximale
Parmi tout les hyperplans separateurs, on cherche celui qui cree leplus grand ecart (ou la plus grande marge) entre les deux classes
Probleme d’optimisation souscontraintes qui maximise M ,fonction de β0, . . . , βp, sous lescontraintes
∑j β
2j = 1, et
yi(β0 + β1xi1 + · · ·+ βpxip) ≥Mpour tout i
Ce probleme peut se voir comme une question de programmationconvexe quadratique et resolue efficacement. La fonction svm() dupackage e1071 resout ce probleme efficacement.
Donnees non separables et donnees bruitees
I Parfois, les donnees ne sont pas separables par un hyperplan.C’est souvent le cas, sauf si n < p.
I Souvent, les donnees sont separables, mais bruitees. Un classifieurconstruit en maximisant la marge de l’hyperplan separateur peutavoir une mauvaise erreur de test.
Pour toutes ces raisons, le classifieur SVM maximise une marge� douce �.
SVM classifieur
maximiserβ0,...βpM sous les contraintes∑j
β2j = 1,
yi(β0 + β1xi1 + · · ·+ βpxip) ≥M(1− εi)
εi ≥ 0,
n∑i=1
εi ≤ C.
Le parametre C est un parametre de regularisation.
Une frontiere lineaire n’est pas toujours une bonne idee
Parfois, il est simplement absconsd’utiliser une frontiere lineaire,quelle que soit la valeur de C quel’on utilise.
Extension de l’espace des covariables
I Agrandir les espaces des covariables en ajoutant destransformations non lineaires des Xj (polynomiales, etc.) Onpasse alors d’un espace de dimension p a un espace de dimensionM .
I Ajuster un classifieur SVM dans l’espace agrandi
I Cela fournit une frontiere de decision non-lineaire dans l’espaceoriginal.
Exemple. Si on utilise (X1, X2, X21 , X
22 , X1X2) au lieu de (X1, X2),
alors la frontiere entre les deux decisions est de la forme
β0 + β1X1 + β2X2 + β3X21 + β4X
22 + β5X1X2 = 0
c’est-a-dire une conique.
Non-linearites et noyaux
I Les polynomes (en particulier en grande dimension) devientrapidement incontrolables.
I Il y a une facon plus elegante et mesuree d’introduire desnon-linearites dans les classifiers SVM, via l’utilisation de noyaux
I Avant de presenter ce point, nous devons comprendre le role duproduit scalaire dans les SVM.
Produit scalaire et SVM〈xi, xi′〉 =
∑pj=1 xijxi′j est le produit scalaire entre les vecteurs xi et
xi′
I Le classifieur construit par SVM peut s’ecrire
f(x) = β0 +
n∑i=1
αi〈x, xi〉
avec n parametres
I Pour estimer ces parametres αi et β0, tout ce dont on a besoinest l’ensemble des n(n− 1)/2 produits scalaires 〈xi, xi′〉 entrepaires d’observations de l’ensemble d’entrainement
Il s’avere que la plupart des αi peuvent etre nuls :
f(x) = β0 +∑i∈S
αi〈x, xi〉
S est l’ensemble support des indices i tels que αi 6= 0.
Noyaux et SVM
I Si l’on peut calculer les produits scalaires entre observations, onpeut ajuster un classifier SVM. Celui ci peut etre tres abstrait.
I Quelques fonctions noyaux tres particulieres le font pour nous.Par exemple
K(xi, xi′) =
1 +
p∑j=1
xijxi′j
d
calcule les produits scalaires necessaires pour des polynomes dedegre d.(Essayez avec p = 2 et d = 2. . .
I La solution est de la forme
f(x) = β0 +∑i∈S
αiK(x, xi)
Noyaux radiaux
K(xi, xi′) = exp
−γ p∑j=1
(xij − xi′j)2
f(x) = β0 +
∑i∈S αiK(x, xi)
L’espace des covariablescompletees est implicite, mais detres grande dimension.
Controle la variance en annulant laplupart des dimensionsseverement.
Exemple : donnees cardiaques
Courbes ROC sur l’ensemble d’entrainement
SVM sur plus de deux classes ?
Tel que defini precedemment, SVM fonctionne sur des problemes adeux classes. Que fait-on si le nombre de classes K > 2 ?
OVA One Versus All. On ajuste K classifiers SVM differents a 2 classesfk(x), k = 1, . . . ,K chaque classe contre le reste des autres
classes. On prend la decision finale avec la valeurs de fk(x) laplus grande.
OVO One Versus One. On ajuste K(K − 1)/2 classifiers SVM par
paires de reponses fk`(x). Decision finale avec la classe qui gagnele plus souvent.
Lequel choisir ? En pratique, si K est trop grand, utiliser OVO.
SVM et regression logistique
Avec f(X) = β0 +∑j βjXj , on peut re-ecrire l’optimisation au cœur
de SVM comme
minimize(βj ,j=1...p)
n∑i:1
max[0, 1− yi f(xi)
]+ λ
∑j
β2j .
I Classes bien separees : SVM souvent meilleur que la regression
logistique.
I Lorsque ce n’est pas le cas, la regression logistique (avec penaliteridge) et SVM sont similaires.
I Pour des frontieres de decision non lineaires, les SVM a noyauxsont populaires. On peut utiliser des noyaux dans le calcul deregression logistique et la LDA aussi. Mais les calculs sontbeaucoup plus long.
Interpretability vs Flexibility