Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Apprentissage AutomatiqueUn voyage initiatique
Cecile CAPPONI) & Remi EYRAUD
LIS, Aix-Marseille Universite, CNRSEquipe QARMA
L3 MIASH – 2018-2019
https://pageperso.lis-lab.fr/˜remi.eyraud/WP/?page_id=145
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Un uscces recent : explosion des donnees numeriques
De quelles donnees parlons-nous?
Donnees d’observation, issues d’individus ou de phenomenes, anciennes ouactuelles, brutes ou travaillees, supposees marquees par des regularites.
Reseaux sociaux, personnelles
Objects connectes (bracelet EMG, camera surveillance, etc.)
Sciences (astrophysique, biologie, SHS, sante, meteo, etc.)
Commerce (transactions, production, client, bitcoin, etc.), WebRobots (ouvrier, drone, transports, etc.)
A l’intersection de plusieurs champs disciplinaires
Cette U.E.
10h cours, 20h TD Machine (TP)
Seulement quelques aspects
Cas pratiques
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Qu’est-ce qu’une donnee?
Que voyez-vous?
Un chat, un felin, un animal
Des poils noir, des yeux jaunes
Un malheur a venir
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Qu’est-ce qu’une donnee?
Que voit l’ordinateur?
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Qu’est-ce qu’une donnee?
Que voit l’ordinateur?
Qualification des donnees
Qualitatives versus quantitatives
Categorielles, discretes, continues, sequentielles, vectorielles, etc.
Positionnees dans des taxonomies, ou pas
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Qu’est-ce qu’un ensemble de donnees?
Entrepot de donnees : stockage
Obtention de jeu de donnees
Extraction a partir d’un entrepot (ou web)
Integration des donnees
Acquisition dediee (protocole)
Necessite de nettoyage des donnees
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Que faire avec des donnees?
Extraction de connaissances a partir d’un jeu de donnees
Les structurer, les stocker (big data, cloud...)
En extraire des connaissances
en extraire des tendances
reconnaıtre des concepts
les analyser, les comprendre
Aspects societaux : explosion des donnees numeriques
Droit des donnees, accessibilite
Securite, confidentialite
Aspects ethiques
Problematique des biais
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
L’apprentissage Automatique au coeur de la science des donnees
L’apprentissage automatique est le moteur de ces progres recents.
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Objectifs de ce cours (30h)
Ce que nous ne traiterons pas : big data
Ce que nous aborderons : traitement d’un jeu de donnees
Analyse prealable desdonnees
Visualisation des donnees
Classification
Regression
Regroupement
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Representations presque brutes
La feuille excel pour representer un jeu de donnees (e.g. open data)
Le jeu de donnees Titanic
Colonnes typees (booleen, symbolique, reel,etc.)
Autres types de donnees pour les colonnes (ou groupes de colonnes)
Texte = (longue) chaıne de caracteres
Image = tableau de pixels a trois couleurs
Signal = amplitude selon le temps
Graphe = noeuds et arcs, matrice d’adjacence
Ensemble de donnees (dataset)
Un tableau de donnees
Cas d’une representation vectorielle des donnees : S = {xi}ni=1, xi ∈ Rd
Distributions de probabilite pour chaque colonne, distributions jointesP(A1),P(A2), · · ·P(Ad ),P(A1,A2, · · · ,Ad ) ou les Aj sont des variablesaleatoires
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Du titanic aux reseaux d’interactions biologiques
Dataset Titanic – Heterogeneite des colonnes
Objectif : expliquer colonne survie par les autres colonnesQualite du jeu de donnees
Colonnes Sex ou TicketNecessite de plus d’exemplesDonnees manquantes
Cas d’un jeu de donnees etiquetees S = {(xi , yi )}ni=1, xi ∈ X , yi ∈ Y
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Du titanic aux reseaux d’interactions biologiques
Texte a traduire = une donnee
Chaque exemple du dataset (ligne) est un documentSi notre systeme d’enseignement superieur ne sait pas former et attirer assez de techniciens,
d’ingenieurs, de docteurs pour alimenter le developpement des laboratoires et des entreprises en
France, pour garder aussi ses talents dans la formation des nouvelles generations , nous ne
parviendrons pas a consolider cette conquete d’un horizon nouveau. C’est pourquoi nous
doublerons le nombre d’etudiants formes a l’intelligence artificielle, depuis la licence jusqu’au
doctorat en passant par les formations professionnelles courtes, et prevoirons les financements qui
correspondent a ce doublement.
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Du titanic aux reseaux d’interactions biologiques
Image = une donnee
Dataset = tableau d’images (ex. scanners cerebraux)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Du titanic aux reseaux d’interactions biologiques
Signal et son spectre = une donnee
Dataset = tableau de signaux (ex. playlist musicale)(source : tangenteX.com)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Du titanic aux reseaux d’interactions biologiques
une donnee = une interaction entre deux proteinesDataset = Un graphe d’interactions entre proteines
(source : CNRS)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Un Graal pour traiter les donnees : la representation vectorielle
Fondements mathematiques
Bases eprouvees, riches et solides
Distances et similarites entre deux vecteurs
Transformations lineaires ou non, derivees
Algebre lineaire, statistiques, topologie
Proprietes algorithmiques (parcimonie, arithmetique, etc.)
Alternatives algorithmiques
Sequences, sacs, arbres, automates, graphes
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Exemples d’echantillons statistiques (jeu de donnees)
Echantillon a une seule variable
Echantillon a deux variables : variable facteur et variable a expliquer
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Statistiques descriptives simples (1)
Estimation de proprietes statistiques simples
Proprietes fondees sur des distributions de probabilites
Nous ne disposons que d’un echantillon : distribution inconnue
Estimateurs de ces proprietes, notion de biais
Utilite pour avoir un apercu statistique de l’echantillon et des variables
Sur echantillon avec une seule variable x
Echantillon de variables numeriques S = {xi}ni=1, xi ∈ R (serie statistique)
Moyenne de x sur S : µS(x) = x = 1n
∑ni=1 xi
Variance de x sur S : VS(x) = 1n
∑ni=1(xi − x)2 (indicateur de dispersion).
Ecart-type de x sur S : σS(x) =√
VS(x)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Statistiques descriptives simples (2)
Sur echantillon avec deux variables x , y : S = {(xi , yi )}ni=1, (xi , yi ) ∈ R2
Covariance des variables dans S pour quantifier les ecarts conjoints dex et y par rapport a leurs moyennes respectives :covS(x , y) = 1
n
∑ni=1(xi − x)(yi − y)
Coefficient de correlation de S pour mesurer l’intensite d’une relationentre x et y , estimateur de Bravais-Pearson : rp(x , y) = covS(x,y)
σxσy
Fonction expliquant y par x (facteur) dans S : y = f (x) (en regressionlineaire : y = ax + b)
Coefficient de determination de S par f :
R2 = 1−∑n
i=1(yi−f (xi ))2
nVS(y)= r 2
p (f (x), y)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Statistiques descriptives simples (3)
Avec m > 2 variables : Statistiques multi-variees
S = {(xi,1, xi,2, · · · , xi,d )}ni=1, avec xi,j ∈ R
Vin Bel. N.L. RFA Ita. UK Sui. USA Can.CHMP 7069 3786 12578 8037 13556 9664 10386 206MOS1 2436 586 2006 30 1217 471 997 51MOS2 3066 290 10439 1413 7214 112 3788 330ALSA 2422 1999 17183 57 1127 600 408 241GIRO 22986 22183 21023 56 30025 6544 13114 3447BOJO 17465 19840 72977 2364 39919 17327 17487 2346BORG 3784 2339 4828 98 7885 3191 11791 1188
n = 7, d = 8, x2,5 = 1217
La matrice de covariance mesure, pour chaque couple de variablesdifferentes, leur propension a varier ensemble dans le jeu de donnees.(http://www.info.univ-angers.fr/˜gh/Datasets/vins.htm)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
La matrice de covariance C de S = {xi}
Definition
Matrice X = (xi,j ) la description du jeu de donnees S, de taille n × d
C = X T X est sa matrice de covariance, de taille d × d : variance dechaque variable sur la diagonale, covariances des variables 2 a 2 ailleurs
covariance entre variables normalisees : a et b = 0 si a et b varientindependamment, 1 (ou −1) si variables proportionnelles (colineaires)
X Tj,i = Xi,j , C est symetrique, donc diagonalisable
C inversible sauf si deux colonnes sont colineaires
X =
x1,1 x1,2 · · · x1,d
x2,1 x2,2 · · · x2,d
· · · · · · · · · · · ·xn,1 xn,2 · · · xn,d
X T =
x1,1 x2,1 · · · xn,1
x1,2 x2,2 · · · xn,2
· · · · · · · · · · · ·x1,d x2,d · · · xn,d
C = X T X =
∑n
i=1(xi,1)2 ∑ni=1 xi,1xi,2 · · ·
∑ni=1 xi,1xi,d∑n
i=1 xi,2xi,1∑n
i=1(xi,2)2 · · ·∑n
i=1 xi,2xi,d
· · · · · · · · · · · ·∑ni=1 xi,d xi,1
∑ni=1 xi,d xi,2 · · ·
∑ni=1(xi,d )2
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Disgression : ne pas confondre correlation et causalite
Cum hoc ergo propter hoc
Si A et B sont correles1 A est la cause de B?2 B est la cause de A?3 Autorenforcement du systeme (1 ET 2)4 Il existe un troisieme facteur (inconnu) etant la cause commune de A et B5 Une coıncidence
Du pastafarisme aux correlations fallacieuses
tylervigen.com/spurious-correlations
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Exercice : calcul de ces stats descriptives elementaires sur un exemplesimple
http://www.info.univ-angers.fr/˜gh/Datasets/bumpus.htm,caracteristiques physiologiques d’oiseaux echoues. Extrait :
LOT AIL TET HUM BRE156 245 31.6 18.5 20.5154 240 30.4 17.9 19.6153 240 31.0 18.4 20.6153 236 30.9 17.7 20.2155 243 31.5 18.6 20.3163 247 32.0 19.0 20.9157 238 30.9 18.4 20.2
1 Estimer moyenne, variance et ecart-type de chaque variable
2 Calculer la matrice de covariance : quels sont les couples de variablesles plus covariantes?
3 Regression LOT = f (HUM) (intuitivement, graphiquement) : existe-t-ilune correlation lineaire, et si oui quelle est approximativement sonequation?
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Correction, avec du python !
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Limites des analyses statistiques de base
Le quartet d’Anscombe [E. Tufte]
4 jeux de donnees aux memes proprietes statistiques simples
donnees tres differentes
Et pourtant :Moyenne x et y 9.0 et 7.5Variance x et y 10 et 3.75Correlation x et y 0.816Coeff de dtermination 0.67
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Un peu de python
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Les differents diagrammes de visualisation
Le SWD Challenge une visualisation raconte une histoire
Nombre et provenance des immigresaux USA, depuis 1800 (un cercleconcentrique par decennie) source : http:
//www.storytellingwithdata.com)
Bases = Couleurs, barres, camembert, intervalles de confiance, etc.
Diificultes : rendu correct d’une analyse, importance de la perceptionhumaine, difficultes d’apprehension, precision, etc.
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Les differents diagrammes de visualisation
Le SWD Challenge une visualisation raconte une histoire
L’Europe vue par ses territoiresgeographiques perdus et gagnes :evolution depuis 1957 jusqu’au Brexitsource : http://www.storytellingwithdata.com)
Bases = Couleurs, barres, camembert, intervalles de confiance, etc.
Diificultes : rendu correct d’une analyse, importance de la perceptionhumaine, difficultes d’apprehension, precision, etc.
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Visualisation effectifs/frequences (1)
Donnees qualitatives : barres et camembert
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outils Python (bruts et affines)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outils Python (bruts et affines)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Visualisation effectifs/frequences (2)
Donnees quantitatives
Diagrammes en batons (un baton par valeur discrete), ou histogrammelorsque les donnees sont classees (ou avec intervalle de valeurs)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Mediane et quartiles
Pour un echantillon S, une seule variable x , estimateurs de distributions deprobabilites
La mediane de S et les 3 quartiles
Mediane = valeur mS de x telle qu’il y a autant d’individus dans S pourlesquels x < mS que d’individus avec x > mS
Quartile : meme principe, mais division en 4 des valeurs prises par S :meme quantite d’individus dans chaque partie definit par les quartiles.Une quartile est une valeur de x . Il existe donc 3 quartiles : Q1, Q2(mediane), Q3
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Les percentiles
Les percentiles
Un percentile est un pourcentage d’individus dans S en dessous d’unecertaine valeur de x
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Diagramme de Tukey : visualisation de ces distributions
Pour un echantillon S, une seule variable x
Une boıte a moustache !
Indication de la mediane (et parfois la moyenne), des deux autresquartiles, valeurs maximum et minimum
Representation graphique respectant les ecarts entre ces valeurs (etnon pas la proportion d’individus)
Derives : on y note parfois certains percentiles
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Diagramme de Tukey : visualisation de ces distributions
Pour un echantillon S, une seule variable x
Une boıte a moustache !
Indication de la mediane (et parfois la moyenne), des deux autresquartiles, valeurs maximum et minimum
Representation graphique respectant les ecarts entre ces valeurs (etnon pas la proportion d’individus)
Derives : on y note parfois certains percentiles
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Visualisation brute d’un ensemble de donnees 1D : exemples
(source : enseeiht)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Visualisation brute d’un ensemble de donnees 2D, 3D : exemples
(source : N. Cheifetz, 2009)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Visualisation d’un ensemble de donnees 4D : exemples
(source : STHDA)
Au dela de 4D : difficile !
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Representation vectorielle d’une donnee image : exemple
Du tableau de pixels a des representations specifiques
Histogramme : observation statistique d’un seul critere (ici, le niveau de gris)(source : B. Perret)
Limites de l’histogramme
(source : B. Perret)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Representation vectorielle d’une donnee texte : exemple
Notion de dictionnaire : espace vectoriel
Sac de mots = representation d’un texte par les mots qui le composent,sans ordre
Vecteur : chaque mot du dictionnaire est une composante de l’espace
Valeur d’une composant : presence/absence, nombre d’occurrences,frequences, etc.
Alternatives nombreuses : n-grams, word embeddings, etc.
(Gil’s CV blog)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Extension des sacs de mots aux images
Dictionnaire de mots visuels = espace vectoriel
Toujours une histoire d’histogrammes
(source : Gil’s CV blog)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Visualisation d’un jeu de donnees au dela de 4D
Une realite
S = {xi}ni=1, avec xi ∈ Rd
Iris dataset, n = 150, d = 4
Animal with Attributes, n = 30K , d de 3× 256 = de 768 (HOC) a 4000(BOW), selon espace vectoriel de description
Titanic, n = 500, d = 15
Reduction de dimensions pour un apercu plus synthetique
Projection sur deux ou trois variables d’interet, lesquelles?
Analyse en composantes principales, pour degager des combinaisonsinformatives de composantes
Analyse discriminante en cas de supervision : donnees appartenant ades groupes identifies : S = {(xi , yi )}n
i=1, avec yi ∈ {1, 2, · · · , k}
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Analyse en composantes principales : introduction
Plus d’un siecle d’existence (Pearson, 1901)
Statistique multivariee, analyse factorielle
Transformation de composantes (axes, variables) correlees entre elles(ex. d3 = ad1 + bd2 + c) en nouvelles composantes decorrelees(=composantes principales)
Reduction de dimensions, elimination de redondances, debruitage, doncvisualisation et pre-traitement
Compression des donnees
(source : A.M. Cherif)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Travail sur un nuage de points a d dimensions
Cas de d = 2, visualisation des axes principaux, et projection
(source : In Depth Tutorial)
Cas de d = 3, reduction vers d = 2
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
L’Analyse en Composantes Principales : matrice de donnees
Matrice d’entrees
X matrice de taille n × d (32*12), a valeurs reelles (pour l’instant). Unindividu (=donnee) par ligne, une variable par colonne
xi,j est la valeur de la j eme variable pour le i eme individu
Comparaison de deux lignes = comparaison de deux individus dansl’espace des variables Rd
Comparaison de deux colonnes = comparaison de deux variables dansl’espace des individus Rn
Comparaisons = distances (ressemblances), dependances (relations)sauce covariance
Exemplex sport sommeil lecture internet repas · · · menagex1 0.04 0.27 0.09 0.11 0.03 · · · 0.08x2 0.11 0.21 0.01 0.08 0.09 · · · 0.11x3 0.03 0.26 0.08 0.12 0.02 · · · 0.07· · · · · · · · · · · · · · · · · · · · · · · ·xn 0.01 0.31 0.13 0.13 0.08 · · · 0.02
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Comparaisons entre individus
Distance entre deux individus
Ici, distance euclidienne : deux points sont d’autant plus voisins que leurscoordonnees (activites quotidiennes) sont proches.
d2(x1, x2) =d∑
j=1
(x1,j − x2,j
)2
Projection des points sur une droite (D)
Obtenir une meilleure image approchee du nuage de points
Refleter la dispersion des points sur cette droite (inertie)
Minimiser la distance entre chaque point et son projete
axe principal = D telle que
argmaxD
{ n∑i=1
n∑i′=1
d2D(xi , xi′)
}
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
A la recherche des axes principaux
Principe de l’ACP
Chercher une representation alternative des n individus dans unsous-espace vectoriel (Fk ) de dimension k , avec k petit (2 ou 3 pour lavisualisation)
= definition de k nouvelles variables qui sont des combinaisons lineairesdes d variables initiales, en perdant le moins d’information possible
Definitions
composantes principales : les nouvelles variables
axes principaux : les axes que les composantes determinent (dans Fk )
facteurs principaux : les formes lineaires associees
Perdre le moins d’informations possibles
Fk s’ajuste au nuage des individus
le nuage (=individus) projete sur Fk a une grande dispersion
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
La dispersion mesuree par l’inertie
Inertie d’un nuage de points
Ig =1m
n∑i=1
d2(xi , g) ou g est le centre de gravite
Soit pi le projete orthogonal de la variable xi sur le sous-espace F
d2(xi , g) = d2(xi , pi ) + d2(pi , g)
On cherche F tel que
n∑i=1
d2(xi , pi ) soit minimale
donc par Pythagore
variancen∑
i=1
d2(pi , g) maximale
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Axes principaux, vecteurs et valeurs propres
Les d axes principaux d’inertie
Axes de direction des vecteurs propres de la matrice de covariance, normesa 1
1 Premier axe u1 = (u1,1, u1,2 . . . u1,d ) : vecteur associe a la plus grandevaleur propre λ1 (sa variance)
2 axe u2 : celui associe a la deuxieme plus grande valeur propre λ2
3 etc.
A chaque axe principal : une composante principale
Une variable obtenue par combinaison lineaire des variables initialesc1 = u1,1d1 + u1,2d2 + · · · u1,d dd
1 Composante c1 : vecteur portant les coordonnees des projections desxi
sur l’axe u1
2 c2 : vecteur portant les coordonnees des projections desxi sur l’axe u2
3 etc.
Non correlation des composantes principales
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Representation des individus
Soit cj la j ieme composante principale : cj =
c1,j
c2,j...
cn,j
= coordonnees des m
individus projetes sur l’axe principal j : pi = 〈ci,1, ci,2, · · · , ci,d〉
Pour obtenir une representation humainement visible, plane, on ne garde queles deux premieres composantes
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Un algorithme pour calculer les premieres composantes principales?
Evidemment ! Les q premieres CP...
Soit S l’echantillon de donnees (matrice X ), n individus, d variables
1 Centrer et reduire les donnees : pour chaque variable k de chaqueindividu i dans S, on recalcule X
xki ←
xki − xk
σk
2 Calculer C la matrice de covariance de X centree-reduite
3 Calculer les valeurs propres de X et leurs vecteurs associes
4 Prenez les q plus grandes valeurs propres λ, et les q plus grands axesprincipaux
5 Calculer M la nouvelle representation matricielle de S dans cettenouvelle representation
Oui, mais, comment obtient-on les valeurs propres?
Inversion de la matrice pour calculer son determinant
Tirer partie des proprietes de la matrice de covariance (diago?)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
A la recherche des valeurs propres de la matrice de covariance C
Rappels : definition simplifiee des valeurs et vecteurs propres
Soit une transformation lineaire f : Rd 7→ Rd de matrice carree A
Transformee du vecteur ~a vers le vecteur ~b : ~b = A~a
Lorsqu’il existe ~a, λ,~b = A~a tels que ~b = λ~a (a et son transforme bcolineaires : meme direction), alors λ est une valeur propre, et ~a est unvecteur propre de A : λ~a = A~a
Caracteriser les (λ,~a) pour lesquels A est une simple homothetie(etirement sans rotation)
det(A− λI) = 0
(equation polynomiale de degre d)
Rappels : propriete dans le cas des matrices symetriques
Une matrice carree M est symetrique ssi M = MT
ses valeurs propres λ sont toutes reelles
ses vecteurs propres issus des differentes λ sont orthogonaux, etforment une base orthonormee dans laquelle l’application f representeepar M admet une matrice diagonale (theoreme spectral)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Exercice de (re-)decouverte
Soit l’application lineaire f : R2 7→ R2 representee par la matrice
A =
(0 −
√3
−√
3 −2
)En partant du vecteur ~v = (0, 1), et de l’ensemble vide Λ
1 calculer ~vt = A~v
2 est-ce que ~v et ~vt sont colineaires, et si oui, rajouter λ dans Λ tel que~vt = λ~v
3 ~v ← rot(~v , 30) (rotation dans le sens trigonometrique)
4 recommencer en (1) une quinzaine de fois
Quels sont les valeurs propres et les vecteurs propres de A ? Quelle est lamatrice diagonale de f dans la nouvelle base orthonormee?
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Et en python?
Learn englishVisualisation
https://python-graph-gallery.com/ et matplotbib
Statistiques descriptives elementaires
https://docs.scipy.org/doc/scipy/reference/stats.html
ACP
http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Formalisation de la classification supervisee (1)
Classification supervisee – formalisation
X espace d’entree, Y espace des cibles (fini en classification)
Une variable aleatoire Z = (X ,Y ) a valeurs dans X × YLes exemples sont des couples (x , y) ∈ X × Y tires selon la distributionjointe P(Z = (x , y)) egale a P(X = x)P(Y = y |X = x) si P(X = x) 6= 0.
D distribution sur Z = X × YStrain = {(xi , yi )}n
i=1 echantillon de n v.a. Independamment etIdentiquement Distribuees (IID) suivant D
Fonction de perte ` : Y × Y → R
But : minimisation du (vrai) risque
A partir de Strain trouver f : X → Y telle que f = argminh R(h) avec
R(h) = EXY `(h(X ),Y ) =
∫X×Y
`(h(x), y)dD(x , y)
Pour la classification/categorisation, |Y| < +∞, `(y , y ′) = I(y 6= y ′) et
R(h) = PX ,Y∼D(h(X ) 6= Y )
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Remarques essentielles
Le modele est non-deterministe
le probleme cible peut etre reellement non deterministe ;
le probleme peut etre bruite ;
l’espace de descriptions peut ne decrire qu’incompletement unesituation complexe.
On cherche pourant une solution deterministe !
Le modele est non-parametrique
aucun modele specifique de generation de donnees n’est presuppose
aucune contrainte sur l’ensemble des fonctions que l’on doit considererni sur le type de dependances entre fonctions et parametres
Pertes et couts
D’autres fonctions de pertes peuvent etre considerees. En particulier, on peutenvisager des couts differents selon les erreurs commises.
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Exemple
La demande d’une banque
Une banque souhaite proposer une offre commerciale a certains de sesclients : une carte bleue Internet.
Comment cibler les clients les plus susceptibles d’etres interesses?
Lorsqu’elle leur demande d’indiquer leur coordonnees, certains clientsindiquent spontanement une adresse e-mail : critere sur lequel baserl’offre?
Un sondage realise sur un echantillon suppose representatif de sa clientele,indique que :
40% sont interesses dont 80% ayant indique leur e-mail,
60% ne sont pas interesses dont 40% ayant indique leur e-mail.
Modele
X = {email , email}, Y = {interesse, interesse},P(email) = 0.8× 0.4 + 0.6× 0.4 = 0.56, P(interesse|email) = 4/7 etP(interesse|email) = 8/44 = 2/11.
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Exemple (suite)
Question
A t-on raison de n’envoyer l’offre qu’aux clients ayant indique leur e-mail, ensachant que
le cout d’un mailing est de 1 haribo par personne,
le gain est de 500 haribo par client acceptant l’offre,
seul un client interesse sur 100 accepte l’offre commerciale
Solution premiere
Appliquer une des trois regles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Outline
1 IntroductionApprentissage Automatique, kesako ?
2 Representation et visualisationRepresentations numeriques des donneesDes statistiques descriptives aux modes de visualisationQuelques modes classiques de visualisationRepresentation et visualisation des donnees vectorielles
3 Analyse en composantes principales (ACP – PCA)IntroductionACP : principesPour aller plus loin
4 Regles de decisionModelisation de la classification superviseeRegles de classification
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Quelques regles de classification
Regle majoritaire
Pour tout nouvel exemple, retourner la classe ymaj majoritaire, celle pourlaquelle P(y) est maximale : pour tout x ∈ X ,
fmaj (x) = argmaxy
P(y) = ymaj et R(fmaj ) = 1− P(ymaj )
Regle du maximum de vraisemblance
Retourner pour chaque exemple x la classe y pour laquelle x est la valeur laplus observee.
fmv (x) = argmaxy
P(x |y)
Regle de Bayes
Retourner, pour chaque exemple x , la classe y dont l’observation est la plusprobable, ayant observe x
fB(x) = argmaxy
P(y |x)
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Regle de Bayes : la meilleure, mais inacessible
Optimalite de la regle de Bayes
Theoreme. La regle de decision de Bayes est la regle de risque minimal.
Demonstration
Soit f une regle de decision. On a
R(f ) =∑
f (x) 6=y
P(x , y) =∑x∈X
P(x)∑
y 6=f (x)
P(y |x) =∑x∈X
P(x)(1− P(f (x)|x))
On en deduit en particulier que
R(fB) =∑x∈X
P(x)(1− P(fB(x)|x))
On sait que P(fB(x)|x) ≥ P(y |x) pour tout y ∈ Y (par definition de l’argmax).En particulier, P(fB(x)|x) ≥ P(f (x)|x)On en deduit que
R(f ) =∑x∈X
P(x)(1− P(f (x)|x)) ≥∑x∈X
P(x)(1− P(fB(x)|x)) = R(fB)
Remarques en passant...
Le risque de Bayes n’est nul que pour des problemes deterministes.
La regle de decision de Bayes est le plus souvent inaccessible !
Introduction Representation et visualisation Analyse en composantes principales (ACP – PCA) Regles de decision
Exemple (suite)
La majorite des clients n’est pas interessee par l’offre. Donc,
fmaj (x) = interesse et R(fmaj ) = 0.4.
Comme P(email |interesse) = 0.8 > P(email |interesse), on afmv (email) = interesse.Et commeP(email |interesse) = 1− P(email |interesse) < P(email |interesse), on afmv (email) = interesse.
R(fmv ) = 0.4× 0.2 + 0.6× 0.4 = 0.32
Comme P(interesse|email) = 32/56 > 1/2 et P(interesse|email) = 8/44, laregle de Bayes conduit au meme classifieur que la regle du maximum devraisemblance.