Apprentissage Automatiqueremi.eyraud/AA/Introduction_IAA-MIASH.pdf · Apprentissage Automatique, kesako?´ 2 Representation et visualisation´ Representations num´ eriques des donn´

Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision

Apprentissage AutomatiqueUn voyage initiatique

Cecile CAPPONI) & Remi EYRAUD

LIS, Aix-Marseille Universite, CNRSEquipe QARMA

L3 MIASH – 2018-2019

https://pageperso.lis-lab.fr/˜remi.eyraud/WP/?page_id=145

https://pageperso.lis-lab.fr/~remi.eyraud/WP/?page_id=145

https://pageperso.lis-lab.fr/~remi.eyraud/WP/?page_id=145


Outline

1 IntroductionApprentissage Automatique, kesako ?

2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles

3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin

4 Regles de decisionModelisation de la classification superviseeRegles de classification


Outline






Un uscces recent : explosion des donnees numeriques

De quelles donnees parlons-nous?

Donnees d’observation, issues d’individus ou de phenomenes, anciennes ouactuelles, brutes ou travaillees, supposees marquees par des regularites.

Reseaux sociaux, personnelles

Objects connectes (bracelet EMG, camera surveillance, etc.)

Sciences (astrophysique, biologie, SHS, sante, meteo, etc.)

Commerce (transactions, production, client, bitcoin, etc.), WebRobots (ouvrier, drone, transports, etc.)

A l’intersection de plusieurs champs disciplinaires

Cette U.E.

10h cours, 20h TD Machine (TP)

Seulement quelques aspects

Cas pratiques


Qu’est-ce qu’une donnee?

Que voyez-vous?

Un chat, un felin, un animal

Des poils noir, des yeux jaunes

Un malheur a venir



Que voit l’ordinateur?



Que voit l’ordinateur?

Qualification des donnees

Qualitatives versus quantitatives

Categorielles, discretes, continues, sequentielles, vectorielles, etc.

Positionnees dans des taxonomies, ou pas


Qu’est-ce qu’un ensemble de donnees?

Entrepot de donnees : stockage

Obtention de jeu de donnees

Extraction a partir d’un entrepot (ou web)

Integration des donnees

Acquisition dediee (protocole)

Necessite de nettoyage des donnees


Que faire avec des donnees?

Extraction de connaissances a partir d’un jeu de donnees

Les structurer, les stocker (big data, cloud...)

En extraire des connaissances

en extraire des tendances

reconnaıtre des concepts

les analyser, les comprendre

Aspects societaux : explosion des donnees numeriques

Droit des donnees, accessibilite

Securite, confidentialite

Aspects ethiques

Problematique des biais


L’apprentissage Automatique au coeur de la science des donnees

L’apprentissage automatique est le moteur de ces progres recents.


Objectifs de ce cours (30h)

Ce que nous ne traiterons pas : big data

Ce que nous aborderons : traitement d’un jeu de donnees

Analyse prealable desdonnees

Visualisation des donnees

Classification

Regression

Regroupement


Outline






Outline






Representations presque brutes

La feuille excel pour representer un jeu de donnees (e.g. open data)

Le jeu de donnees Titanic

Colonnes typees (booleen, symbolique, reel,etc.)

Autres types de donnees pour les colonnes (ou groupes de colonnes)

Texte = (longue) chaıne de caracteres

Image = tableau de pixels a trois couleurs

Signal = amplitude selon le temps

Graphe = noeuds et arcs, matrice d’adjacence

Ensemble de donnees (dataset)

Un tableau de donnees

Cas d’une representation vectorielle des donnees : S = {xi}ni=1, xi ∈ Rd

Distributions de probabilite pour chaque colonne, distributions jointesP(A1),P(A2), · · ·P(Ad ),P(A1,A2, · · · ,Ad ) ou les Aj sont des variablesaleatoires


Du titanic aux reseaux d’interactions biologiques

Dataset Titanic – Heterogeneite des colonnes

Objectif : expliquer colonne survie par les autres colonnesQualite du jeu de donnees

Colonnes Sex ou TicketNecessite de plus d’exemplesDonnees manquantes

Cas d’un jeu de donnees etiquetees S = {(xi , yi )}ni=1, xi ∈ X , yi ∈ Y



Texte a traduire = une donnee

Chaque exemple du dataset (ligne) est un documentSi notre systeme d’enseignement superieur ne sait pas former et attirer assez de techniciens,

d’ingenieurs, de docteurs pour alimenter le developpement des laboratoires et des entreprises en

France, pour garder aussi ses talents dans la formation des nouvelles generations , nous ne

parviendrons pas a consolider cette conquete d’un horizon nouveau. C’est pourquoi nous

doublerons le nombre d’etudiants formes a l’intelligence artificielle, depuis la licence jusqu’au

doctorat en passant par les formations professionnelles courtes, et prevoirons les financements qui

correspondent a ce doublement.



Image = une donnee

Dataset = tableau d’images (ex. scanners cerebraux)



Signal et son spectre = une donnee

Dataset = tableau de signaux (ex. playlist musicale)(source : tangenteX.com)



une donnee = une interaction entre deux proteinesDataset = Un graphe d’interactions entre proteines

(source : CNRS)


Un Graal pour traiter les donnees : la representation vectorielle

Fondements mathematiques

Bases eprouvees, riches et solides

Distances et similarites entre deux vecteurs

Transformations lineaires ou non, derivees

Algebre lineaire, statistiques, topologie

Proprietes algorithmiques (parcimonie, arithmetique, etc.)

Alternatives algorithmiques

Sequences, sacs, arbres, automates, graphes


Outline






Exemples d’echantillons statistiques (jeu de donnees)

Echantillon a une seule variable

Echantillon a deux variables : variable facteur et variable a expliquer


Statistiques descriptives simples (1)

Estimation de proprietes statistiques simples

Proprietes fondees sur des distributions de probabilites

Nous ne disposons que d’un echantillon : distribution inconnue

Estimateurs de ces proprietes, notion de biais

Utilite pour avoir un apercu statistique de l’echantillon et des variables

Sur echantillon avec une seule variable x

Echantillon de variables numeriques S = {xi}ni=1, xi ∈ R (serie statistique)

Moyenne de x sur S : µS(x) = x = 1n

∑ni=1 xi

Variance de x sur S : VS(x) = 1n

∑ni=1(xi − x)2 (indicateur de dispersion).

Ecart-type de x sur S : σS(x) =√

VS(x)



Sur echantillon avec deux variables x , y : S = {(xi , yi )}ni=1, (xi , yi ) ∈ R2

Covariance des variables dans S pour quantifier les ecarts conjoints dex et y par rapport a leurs moyennes respectives :covS(x , y) = 1

n

∑ni=1(xi − x)(yi − y)

Coefficient de correlation de S pour mesurer l’intensite d’une relationentre x et y , estimateur de Bravais-Pearson : rp(x , y) = covS(x,y)

σxσy

Fonction expliquant y par x (facteur) dans S : y = f (x) (en regressionlineaire : y = ax + b)

Coefficient de determination de S par f :

R2 = 1−∑n

i=1(yi−f (xi ))2

nVS(y)= r 2

p (f (x), y)



Avec m > 2 variables : Statistiques multi-variees

S = {(xi,1, xi,2, · · · , xi,d )}ni=1, avec xi,j ∈ R

Vin Bel. N.L. RFA Ita. UK Sui. USA Can.CHMP 7069 3786 12578 8037 13556 9664 10386 206MOS1 2436 586 2006 30 1217 471 997 51MOS2 3066 290 10439 1413 7214 112 3788 330ALSA 2422 1999 17183 57 1127 600 408 241GIRO 22986 22183 21023 56 30025 6544 13114 3447BOJO 17465 19840 72977 2364 39919 17327 17487 2346BORG 3784 2339 4828 98 7885 3191 11791 1188

n = 7, d = 8, x2,5 = 1217

La matrice de covariance mesure, pour chaque couple de variablesdifferentes, leur propension a varier ensemble dans le jeu de donnees.(http://www.info.univ-angers.fr/˜gh/Datasets/vins.htm)

http://www.info.univ-angers.fr/~gh/Datasets/vins.htm


La matrice de covariance C de S = {xi}

Definition

Matrice X = (xi,j ) la description du jeu de donnees S, de taille n × d

C = X T X est sa matrice de covariance, de taille d × d : variance dechaque variable sur la diagonale, covariances des variables 2 a 2 ailleurs

covariance entre variables normalisees : a et b = 0 si a et b varientindependamment, 1 (ou −1) si variables proportionnelles (colineaires)

X Tj,i = Xi,j , C est symetrique, donc diagonalisable

C inversible sauf si deux colonnes sont colineaires

X =

x1,1 x1,2 · · · x1,d

x2,1 x2,2 · · · x2,d

· · · · · · · · · · · ·xn,1 xn,2 · · · xn,d

X T =

x1,1 x2,1 · · · xn,1

x1,2 x2,2 · · · xn,2

· · · · · · · · · · · ·x1,d x2,d · · · xn,d

C = X T X =

∑n

i=1(xi,1)2 ∑ni=1 xi,1xi,2 · · ·

∑ni=1 xi,1xi,d∑n

i=1 xi,2xi,1∑n

i=1(xi,2)2 · · ·∑n

i=1 xi,2xi,d

· · · · · · · · · · · ·∑ni=1 xi,d xi,1

∑ni=1 xi,d xi,2 · · ·

∑ni=1(xi,d )2


Disgression : ne pas confondre correlation et causalite

Cum hoc ergo propter hoc

Si A et B sont correles1 A est la cause de B?2 B est la cause de A?3 Autorenforcement du systeme (1 ET 2)4 Il existe un troisieme facteur (inconnu) etant la cause commune de A et B5 Une coıncidence

Du pastafarisme aux correlations fallacieuses

tylervigen.com/spurious-correlations

tylervigen.com/spurious-correlations


Exercice : calcul de ces stats descriptives elementaires sur un exemplesimple

http://www.info.univ-angers.fr/˜gh/Datasets/bumpus.htm,caracteristiques physiologiques d’oiseaux echoues. Extrait :

LOT AIL TET HUM BRE156 245 31.6 18.5 20.5154 240 30.4 17.9 19.6153 240 31.0 18.4 20.6153 236 30.9 17.7 20.2155 243 31.5 18.6 20.3163 247 32.0 19.0 20.9157 238 30.9 18.4 20.2

1 Estimer moyenne, variance et ecart-type de chaque variable

2 Calculer la matrice de covariance : quels sont les couples de variablesles plus covariantes?

3 Regression LOT = f (HUM) (intuitivement, graphiquement) : existe-t-ilune correlation lineaire, et si oui quelle est approximativement sonequation?

http://www.info.univ-angers.fr/~gh/Datasets/bumpus.htm


Correction, avec du python !


Limites des analyses statistiques de base

Le quartet d’Anscombe [E. Tufte]

4 jeux de donnees aux memes proprietes statistiques simples

donnees tres differentes

Et pourtant :Moyenne x et y 9.0 et 7.5Variance x et y 10 et 3.75Correlation x et y 0.816Coeff de dtermination 0.67


Un peu de python


Les differents diagrammes de visualisation

Le SWD Challenge une visualisation raconte une histoire

Nombre et provenance des immigresaux USA, depuis 1800 (un cercleconcentrique par decennie) source : http:

//www.storytellingwithdata.com)

Bases = Couleurs, barres, camembert, intervalles de confiance, etc.

Diificultes : rendu correct d’une analyse, importance de la perceptionhumaine, difficultes d’apprehension, precision, etc.

http://www.storytellingwithdata.com



Les differents diagrammes de visualisation

Le SWD Challenge une visualisation raconte une histoire

L’Europe vue par ses territoiresgeographiques perdus et gagnes :evolution depuis 1957 jusqu’au Brexitsource : http://www.storytellingwithdata.com)

Bases = Couleurs, barres, camembert, intervalles de confiance, etc.

Diificultes : rendu correct d’une analyse, importance de la perceptionhumaine, difficultes d’apprehension, precision, etc.



Outline






Visualisation effectifs/frequences (1)

Donnees qualitatives : barres et camembert


Outils Python (bruts et affines)


Outils Python (bruts et affines)


Visualisation effectifs/frequences (2)

Donnees quantitatives

Diagrammes en batons (un baton par valeur discrete), ou histogrammelorsque les donnees sont classees (ou avec intervalle de valeurs)


Mediane et quartiles

Pour un echantillon S, une seule variable x , estimateurs de distributions deprobabilites

La mediane de S et les 3 quartiles

Mediane = valeur mS de x telle qu’il y a autant d’individus dans S pourlesquels x < mS que d’individus avec x > mS

Quartile : meme principe, mais division en 4 des valeurs prises par S :meme quantite d’individus dans chaque partie definit par les quartiles.Une quartile est une valeur de x . Il existe donc 3 quartiles : Q1, Q2(mediane), Q3


Les percentiles

Les percentiles

Un percentile est un pourcentage d’individus dans S en dessous d’unecertaine valeur de x


Diagramme de Tukey : visualisation de ces distributions

Pour un echantillon S, une seule variable x

Une boıte a moustache !

Indication de la mediane (et parfois la moyenne), des deux autresquartiles, valeurs maximum et minimum

Representation graphique respectant les ecarts entre ces valeurs (etnon pas la proportion d’individus)

Derives : on y note parfois certains percentiles


Diagramme de Tukey : visualisation de ces distributions

Pour un echantillon S, une seule variable x

Une boıte a moustache !

Indication de la mediane (et parfois la moyenne), des deux autresquartiles, valeurs maximum et minimum

Representation graphique respectant les ecarts entre ces valeurs (etnon pas la proportion d’individus)

Derives : on y note parfois certains percentiles


Outline






Visualisation brute d’un ensemble de donnees 1D : exemples

(source : enseeiht)


Visualisation brute d’un ensemble de donnees 2D, 3D : exemples

(source : N. Cheifetz, 2009)


Visualisation d’un ensemble de donnees 4D : exemples

(source : STHDA)

Au dela de 4D : difficile !


Representation vectorielle d’une donnee image : exemple

Du tableau de pixels a des representations specifiques

Histogramme : observation statistique d’un seul critere (ici, le niveau de gris)(source : B. Perret)

Limites de l’histogramme

(source : B. Perret)


Representation vectorielle d’une donnee texte : exemple

Notion de dictionnaire : espace vectoriel

Sac de mots = representation d’un texte par les mots qui le composent,sans ordre

Vecteur : chaque mot du dictionnaire est une composante de l’espace

Valeur d’une composant : presence/absence, nombre d’occurrences,frequences, etc.

Alternatives nombreuses : n-grams, word embeddings, etc.

(Gil’s CV blog)


Extension des sacs de mots aux images

Dictionnaire de mots visuels = espace vectoriel

Toujours une histoire d’histogrammes

(source : Gil’s CV blog)


Visualisation d’un jeu de donnees au dela de 4D

Une realite

S = {xi}ni=1, avec xi ∈ Rd

Iris dataset, n = 150, d = 4

Animal with Attributes, n = 30K , d de 3× 256 = de 768 (HOC) a 4000(BOW), selon espace vectoriel de description

Titanic, n = 500, d = 15

Reduction de dimensions pour un apercu plus synthetique

Projection sur deux ou trois variables d’interet, lesquelles?

Analyse en composantes principales, pour degager des combinaisonsinformatives de composantes

Analyse discriminante en cas de supervision : donnees appartenant ades groupes identifies : S = {(xi , yi )}n

i=1, avec yi ∈ {1, 2, · · · , k}


Outline






Outline






Analyse en composantes principales : introduction

Plus d’un siecle d’existence (Pearson, 1901)

Statistique multivariee, analyse factorielle

Transformation de composantes (axes, variables) correlees entre elles(ex. d3 = ad1 + bd2 + c) en nouvelles composantes decorrelees(=composantes principales)

Reduction de dimensions, elimination de redondances, debruitage, doncvisualisation et pre-traitement

Compression des donnees

(source : A.M. Cherif)


Travail sur un nuage de points a d dimensions

Cas de d = 2, visualisation des axes principaux, et projection

(source : In Depth Tutorial)

Cas de d = 3, reduction vers d = 2


L’Analyse en Composantes Principales : matrice de donnees

Matrice d’entrees

X matrice de taille n × d (32*12), a valeurs reelles (pour l’instant). Unindividu (=donnee) par ligne, une variable par colonne

xi,j est la valeur de la j eme variable pour le i eme individu

Comparaison de deux lignes = comparaison de deux individus dansl’espace des variables Rd

Comparaison de deux colonnes = comparaison de deux variables dansl’espace des individus Rn

Comparaisons = distances (ressemblances), dependances (relations)sauce covariance

Exemplex sport sommeil lecture internet repas · · · menagex1 0.04 0.27 0.09 0.11 0.03 · · · 0.08x2 0.11 0.21 0.01 0.08 0.09 · · · 0.11x3 0.03 0.26 0.08 0.12 0.02 · · · 0.07· · · · · · · · · · · · · · · · · · · · · · · ·xn 0.01 0.31 0.13 0.13 0.08 · · · 0.02


Outline






Comparaisons entre individus

Distance entre deux individus

Ici, distance euclidienne : deux points sont d’autant plus voisins que leurscoordonnees (activites quotidiennes) sont proches.

d2(x1, x2) =d∑

j=1

(x1,j − x2,j

)2

Projection des points sur une droite (D)

Obtenir une meilleure image approchee du nuage de points

Refleter la dispersion des points sur cette droite (inertie)

Minimiser la distance entre chaque point et son projete

axe principal = D telle que

argmaxD

{ n∑i=1

n∑i′=1

d2D(xi , xi′)

}


A la recherche des axes principaux

Principe de l’ACP

Chercher une representation alternative des n individus dans unsous-espace vectoriel (Fk ) de dimension k , avec k petit (2 ou 3 pour lavisualisation)

= definition de k nouvelles variables qui sont des combinaisons lineairesdes d variables initiales, en perdant le moins d’information possible

Definitions

composantes principales : les nouvelles variables

axes principaux : les axes que les composantes determinent (dans Fk )

facteurs principaux : les formes lineaires associees

Perdre le moins d’informations possibles

Fk s’ajuste au nuage des individus

le nuage (=individus) projete sur Fk a une grande dispersion


La dispersion mesuree par l’inertie

Inertie d’un nuage de points

Ig =1m

n∑i=1

d2(xi , g) ou g est le centre de gravite

Soit pi le projete orthogonal de la variable xi sur le sous-espace F

d2(xi , g) = d2(xi , pi ) + d2(pi , g)

On cherche F tel que

n∑i=1

d2(xi , pi ) soit minimale

donc par Pythagore

variancen∑

i=1

d2(pi , g) maximale


Axes principaux, vecteurs et valeurs propres

Les d axes principaux d’inertie

Axes de direction des vecteurs propres de la matrice de covariance, normesa 1

1 Premier axe u1 = (u1,1, u1,2 . . . u1,d ) : vecteur associe a la plus grandevaleur propre λ1 (sa variance)

2 axe u2 : celui associe a la deuxieme plus grande valeur propre λ2

3 etc.

A chaque axe principal : une composante principale

Une variable obtenue par combinaison lineaire des variables initialesc1 = u1,1d1 + u1,2d2 + · · · u1,d dd

1 Composante c1 : vecteur portant les coordonnees des projections desxi

sur l’axe u1

2 c2 : vecteur portant les coordonnees des projections desxi sur l’axe u2

3 etc.

Non correlation des composantes principales


Representation des individus

Soit cj la j ieme composante principale : cj =

c1,j

c2,j...

cn,j

= coordonnees des m

individus projetes sur l’axe principal j : pi = 〈ci,1, ci,2, · · · , ci,d〉

Pour obtenir une representation humainement visible, plane, on ne garde queles deux premieres composantes


Un algorithme pour calculer les premieres composantes principales?

Evidemment ! Les q premieres CP...

Soit S l’echantillon de donnees (matrice X ), n individus, d variables

1 Centrer et reduire les donnees : pour chaque variable k de chaqueindividu i dans S, on recalcule X

xki ←

xki − xk

σk

2 Calculer C la matrice de covariance de X centree-reduite

3 Calculer les valeurs propres de X et leurs vecteurs associes

4 Prenez les q plus grandes valeurs propres λ, et les q plus grands axesprincipaux

5 Calculer M la nouvelle representation matricielle de S dans cettenouvelle representation

Oui, mais, comment obtient-on les valeurs propres?

Inversion de la matrice pour calculer son determinant

Tirer partie des proprietes de la matrice de covariance (diago?)


Outline






A la recherche des valeurs propres de la matrice de covariance C

Rappels : definition simplifiee des valeurs et vecteurs propres

Soit une transformation lineaire f : Rd 7→ Rd de matrice carree A

Transformee du vecteur ~a vers le vecteur ~b : ~b = A~a

Lorsqu’il existe ~a, λ,~b = A~a tels que ~b = λ~a (a et son transforme bcolineaires : meme direction), alors λ est une valeur propre, et ~a est unvecteur propre de A : λ~a = A~a

Caracteriser les (λ,~a) pour lesquels A est une simple homothetie(etirement sans rotation)

det(A− λI) = 0

(equation polynomiale de degre d)

Rappels : propriete dans le cas des matrices symetriques

Une matrice carree M est symetrique ssi M = MT

ses valeurs propres λ sont toutes reelles

ses vecteurs propres issus des differentes λ sont orthogonaux, etforment une base orthonormee dans laquelle l’application f representeepar M admet une matrice diagonale (theoreme spectral)


Exercice de (re-)decouverte

Soit l’application lineaire f : R2 7→ R2 representee par la matrice

A =

(0 −

√3

−√

3 −2

)En partant du vecteur ~v = (0, 1), et de l’ensemble vide Λ

1 calculer ~vt = A~v

2 est-ce que ~v et ~vt sont colineaires, et si oui, rajouter λ dans Λ tel que~vt = λ~v

3 ~v ← rot(~v , 30) (rotation dans le sens trigonometrique)

4 recommencer en (1) une quinzaine de fois

Quels sont les valeurs propres et les vecteurs propres de A ? Quelle est lamatrice diagonale de f dans la nouvelle base orthonormee?


Et en python?

Learn englishVisualisation

https://python-graph-gallery.com/ et matplotbib

Statistiques descriptives elementaires

https://docs.scipy.org/doc/scipy/reference/stats.html

ACP

http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html

https://python-graph-gallery.com/

https://docs.scipy.org/doc/scipy/reference/stats.html




Outline






Outline






Formalisation de la classification supervisee (1)

Classification supervisee – formalisation

X espace d’entree, Y espace des cibles (fini en classification)

Une variable aleatoire Z = (X ,Y ) a valeurs dans X × YLes exemples sont des couples (x , y) ∈ X × Y tires selon la distributionjointe P(Z = (x , y)) egale a P(X = x)P(Y = y |X = x) si P(X = x) 6= 0.

D distribution sur Z = X × YStrain = {(xi , yi )}n

i=1 echantillon de n v.a. Independamment etIdentiquement Distribuees (IID) suivant D

Fonction de perte ` : Y × Y → R

But : minimisation du (vrai) risque

A partir de Strain trouver f : X → Y telle que f = argminh R(h) avec

R(h) = EXY `(h(X ),Y ) =

∫X×Y

`(h(x), y)dD(x , y)

Pour la classification/categorisation, |Y| < +∞, `(y , y ′) = I(y 6= y ′) et

R(h) = PX ,Y∼D(h(X ) 6= Y )


Remarques essentielles

Le modele est non-deterministe

le probleme cible peut etre reellement non deterministe ;

le probleme peut etre bruite ;

l’espace de descriptions peut ne decrire qu’incompletement unesituation complexe.

On cherche pourant une solution deterministe !

Le modele est non-parametrique

aucun modele specifique de generation de donnees n’est presuppose

aucune contrainte sur l’ensemble des fonctions que l’on doit considererni sur le type de dependances entre fonctions et parametres

Pertes et couts

D’autres fonctions de pertes peuvent etre considerees. En particulier, on peutenvisager des couts differents selon les erreurs commises.


Exemple

La demande d’une banque

Une banque souhaite proposer une offre commerciale a certains de sesclients : une carte bleue Internet.

Comment cibler les clients les plus susceptibles d’etres interesses?

Lorsqu’elle leur demande d’indiquer leur coordonnees, certains clientsindiquent spontanement une adresse e-mail : critere sur lequel baserl’offre?

Un sondage realise sur un echantillon suppose representatif de sa clientele,indique que :

40% sont interesses dont 80% ayant indique leur e-mail,

60% ne sont pas interesses dont 40% ayant indique leur e-mail.

Modele

X = {email , email}, Y = {interesse, interesse},P(email) = 0.8× 0.4 + 0.6× 0.4 = 0.56, P(interesse|email) = 4/7 etP(interesse|email) = 8/44 = 2/11.


Exemple (suite)

Question

A t-on raison de n’envoyer l’offre qu’aux clients ayant indique leur e-mail, ensachant que

le cout d’un mailing est de 1 haribo par personne,

le gain est de 500 haribo par client acceptant l’offre,

seul un client interesse sur 100 accepte l’offre commerciale

Solution premiere

Appliquer une des trois regles de classification


Outline






Quelques regles de classification

Regle majoritaire

Pour tout nouvel exemple, retourner la classe ymaj majoritaire, celle pourlaquelle P(y) est maximale : pour tout x ∈ X ,

fmaj (x) = argmaxy

P(y) = ymaj et R(fmaj ) = 1− P(ymaj )

Regle du maximum de vraisemblance

Retourner pour chaque exemple x la classe y pour laquelle x est la valeur laplus observee.

fmv (x) = argmaxy

P(x |y)

Regle de Bayes

Retourner, pour chaque exemple x , la classe y dont l’observation est la plusprobable, ayant observe x

fB(x) = argmaxy

P(y |x)


Regle de Bayes : la meilleure, mais inacessible

Optimalite de la regle de Bayes

Theoreme. La regle de decision de Bayes est la regle de risque minimal.

Demonstration

Soit f une regle de decision. On a

R(f ) =∑

f (x) 6=y

P(x , y) =∑x∈X

P(x)∑

y 6=f (x)

P(y |x) =∑x∈X

P(x)(1− P(f (x)|x))

On en deduit en particulier que

R(fB) =∑x∈X

P(x)(1− P(fB(x)|x))

On sait que P(fB(x)|x) ≥ P(y |x) pour tout y ∈ Y (par definition de l’argmax).En particulier, P(fB(x)|x) ≥ P(f (x)|x)On en deduit que

R(f ) =∑x∈X

P(x)(1− P(f (x)|x)) ≥∑x∈X

P(x)(1− P(fB(x)|x)) = R(fB)

Remarques en passant...

Le risque de Bayes n’est nul que pour des problemes deterministes.

La regle de decision de Bayes est le plus souvent inaccessible !


Exemple (suite)

La majorite des clients n’est pas interessee par l’offre. Donc,

fmaj (x) = interesse et R(fmaj ) = 0.4.

Comme P(email |interesse) = 0.8 > P(email |interesse), on afmv (email) = interesse.Et commeP(email |interesse) = 1− P(email |interesse) < P(email |interesse), on afmv (email) = interesse.

R(fmv ) = 0.4× 0.2 + 0.6× 0.4 = 0.32

Comme P(interesse|email) = 32/56 > 1/2 et P(interesse|email) = 8/44, laregle de Bayes conduit au meme classifieur que la regle du maximum devraisemblance.

Documents

Apprentissage Automatiqueremi.eyraud/AA/Introduction_IAA-MIASH.pdf · Apprentissage Automatique, kesako?´ 2 Representation et visualisation´ Representations num´ eriques des donn´