Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Introduction
Machine Learning et Big Data
Master 1 – Data Science et Modelisation statistique
[email protected] de Bretagne Sud
UFR SSI
2019-2020 : S2
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Qu’est-ce que le machine learning ?
Le Machine Learning (apprentissage automatique, apprentissage artificiel,apprentissage statistique) est un champ d’etude de l’intelligence artificielle quise fonde sur des approches mathematiques et statistiques pour donner auxordinateurs la capacite d’ “apprendre” a partir de donnees, c’est-a-dired’ameliorer leurs performances a resoudre des taches sans etre explicitementprogrammes pour chacune. Plus largement, il concerne la conception, l’analyse,l’optimisation, le developpement et l’implementation de telles methodes.
Wikipedia
Imputx ∈ X
î Machinef
î Outputy ∈ Y , y = f (x)
Exemple : la regression simple
DonneesExemplesEtiquettesLabels
Entraınement
îOptimisation
Min. Risque/Erreur
Algorithmesd’apprentissage î Algorithme
appris
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Apprentissage
On distingue differents types d’apprentissage :l’apprentissage superviseå L’imput x et l’output y sont connus.
Classification bineaire Y ={
0, 1}
Classification multiclasse Y ={
0, . . . , c}
Regression Y = R
l’apprentissage non-superviseå L’input est connu mais l’output n’est pas connu.
Clustering ou partitionnement (analyse factoriel).
Reduction de dimension : projection de X sur un espace de dimension pluspetite.
Estimation de la densite d’une loi de probabilite.
l’apprentissage semi-superviseå Il s’agit d’une combinaison des precedentes approches. Certaines etiquettes ne
sont pas connus. On peut utiliser un modele probabiliste pour faire de l’imputation.
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Apprentissage
l’apprentissage par renforcementå La machine est concue en cherchant a optimiser une recompense a partir
d’experiences correspondant a differentes situations.
La construction s’appuie sur la theorie de la decision :à actions / recompenses.
Donnees : (si , ai , ri , si+1), s : etat du systeme, a : une action possible, r :une recompense.
Exemple : Entraınement de robot (Boston Dynamics) : robot capable de marcher, courir,grimper, faire des figures de gymnastique, porter des charges lourdes.Apprentissage par “renforcement” : recompense est forte et positive s’il reste debout, sarecompense est negative s’il tombe, par ex.Il est programme pour explorer les differents mouvements qu’il peut effectuer et faire sespropres experiences.C’est ainsi qu’il apprend seul a accomplir et a optimiser des taches : maniere de poser sespieds (vitesse, frequence, angle, etc.) d’une facon tres similaire a un animal ou un humain.
https ://www.youtube.com/watch ?v=M91ISnATDQY
https ://www.youtube.com/watch ?v=WcbGRBPkrps
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Objectifs
Problemes :•
Algorithmesd’apprentissage
à determiner et caracteriser f
å Inference à estimer f
•
Algorithmeappris
à Prediction (prevision)
å nouvelles donnees x à Reponse y par f .
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Exemples
Detection de SPAM (messages indesirables)(https ://www.youtube.com/watch ?v=zLih-WQwBSc)
å Classificationx : messagey : reponse, y = 1 si SPAM, y = O sinon.
â Donnees : pourcentage d’occurrence d’un ensemble de mots et decaracteres dans les 2 types de message.
george you your hp free hpl ! our re edu remove
SPAM 0.00 2.26 1.38 0.02 0.52 0.01 0.51 0.51 0.13 0.01 0.28
email 1.27 1.27 0.44 0.90 0.07 0.43 0.11 0.18 0.42 0.29 0.01
â Machine :if (%george >0.6) & (%you>1.5) then y = 1 à SPAM, else email
â Autre machine :if (0.2%you-0.3%george)>0 then y = 1 à SPAM, else email
þ Apprentissage supervise
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Exemples
Detection de SPAM (messages indesirables)(https ://www.youtube.com/watch ?v=zLih-WQwBSc)
å Classificationx : messagey : reponse, y = 1 si SPAM, y = O sinon.
â Donnees : pourcentage d’occurrence d’un ensemble de mots et decaracteres dans les 2 types de message.
george you your hp free hpl ! our re edu remove
SPAM 0.00 2.26 1.38 0.02 0.52 0.01 0.51 0.51 0.13 0.01 0.28
email 1.27 1.27 0.44 0.90 0.07 0.43 0.11 0.18 0.42 0.29 0.01
â Machine :if (%george >0.6) & (%you>1.5) then y = 1 à SPAM, else email
â Autre machine :if (0.2%you-0.3%george)>0 then y = 1 à SPAM, else email
þ Apprentissage supervise
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Exemples
Cancer de la prostateDosage de la PSA (prostate specific antigen) permet de depister le cancerde la prostate.
å Regression
x : 8 variables explicatives dont le poids de la prostate (log),le score de Gleason (mesure de l’agressivite du cancer scoreentre 2 et 10), n = 97 patients.
y : reponse à log PSA
þ Apprentissage supervise
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Exemples
Cancer de la prostateDosage de la PSA (prostate specific antigen) permet de depister le cancerde la prostate.
å Regression
x : 8 variables explicatives dont le poids de la prostate (log),le score de Gleason (mesure de l’agressivite du cancer scoreentre 2 et 10), n = 97 patients.
y : reponse à log PSA
þ Apprentissage supervise
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Exemples
Reconnaissance d’ecritureTri du courrier : lecture automatique du code postal.
å Classification
y : reponse à
{y=1, reconnu.y=0, non reconnu.
Il s’agit de fabriquer un algorithme, d’entraıner une machine a reconnaıtre unchiffre en faisant le moins d’erreur possible : courrier egare.
þ Apprentissage supervise
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Exemples
Reconnaissance d’ecritureTri du courrier : lecture automatique du code postal.
å Classification
y : reponse à
{y=1, reconnu.y=0, non reconnu.
Il s’agit de fabriquer un algorithme, d’entraıner une machine a reconnaıtre unchiffre en faisant le moins d’erreur possible : courrier egare.
þ Apprentissage supervise
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Exemples
Puce a ADN (Biopuce)(DNA-microarray) permet d’analyser leniveau d’expression des genes dans unecellule. Ce niveau est caracterise par unchiffre entre -6 et +6. Une valeur basseindique une faible expression, une valeurhaute indique une expression elevee.Les donnees resultant se presentent sous laforme d’une matrice ou le niveau estrepresente en couleurs (de rouge expressionelevee a jaune expression faible).En ligne, les genes (6830).En colonne, le type de tumeur (64).
å Regressiony : reponse Niveau d’expressionx : (gene, type de tumeur)
þ Apprentissage supervise
å ClusteringClusters de genes ayant des profils similairesle long des tumeurs (6830 points dans un espacedim.64).Clusters de types de tumeurs ayant desprofils similaires le long des genes.
þ Apprentissage non supervisetumeur (individus)
genes
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Apprentissage supervise
Imput ou donnees d’entree ou generateur aleatoire
x ∈ X ,
x ∼ P(x), la distribution de x .
Output ou reponse ou superviseur ou oracle associe aux imput
y ∈ Y ,
y ∼ P(y | x), la loi de y conditionnellement a x .
Trouver une machine f qui decrive le mieux possible la relation entre lesentrees et les sorties :
y ≈ f (x).
Espace d’hypotheses : ensembles de machines candidates,
H ={
f : X → Y}.
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Apprentissage supervise
Exemple d’espace d’hypothesesSupposons y ∈ R et x ∈ Rq,
H ={
f : X → Y , f (x) = β0 + β′x , β ∈ Rq}.å Prediction lineaire
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Apprentissage supervise
Dans le cadre de la theorie de la DecisionLe choix d’une fonction f correspond a une prise de decision.Toute decision a un cout. Pour mesurer ce cout, on introduit unefonction de perte. Elle permet de mesurer l’erreur encourue lorsqu’onprend la decision f (x) si l’etat de la nature est y :
L(y , f (x)).
Cependant, le caractere aleatoire des acteurs ne permet pas d’arbitrer.On introduit donc la fonction de risque qui est l’esperance de la perte :
R(f ) = E(
L(y , f (x))
=∫
L(
y , f (x))
dP(x , y).
L’objectif de l’apprentissage supervise est alors de trouver la fonction f quiminimise ce risque :
f = argminf ∈H
R(f ).
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Quelques exemples de fonctions de perte
La perte `2 ou cout quadratique :
L(
y , f (x))
=(
y − f (x))2
.
La perte `1 ou cout absolu :L(
y , f (x))
= |y − f (x)|.
La perte ε-sensible (ε > 0) :
L(
y , f (x))
= |y − f (x)|ε ou |u|ε ={
0 si |u| < ε,
|u| − ε sinon.
La perte binaire ou cout 0-1 : Y ={
0, 1}
L(
y , f (x))
={
1 si f (x) 6= y ,
0 sinon.
La perte SVM :
L(
y , f (x))
= |y − f (x)|+ ou u+ ={
u si u > 0,
0 sinon.
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Quelques exemples de fonctions de perte
La perte `2 ou cout quadratique :
L(
y , f (x))
=(
y − f (x))2
.
La perte `1 ou cout absolu :L(
y , f (x))
= |y − f (x)|.
La perte ε-sensible (ε > 0) :
L(
y , f (x))
= |y − f (x)|ε ou |u|ε ={
0 si |u| < ε,
|u| − ε sinon.
La perte binaire ou cout 0-1 : Y ={
0, 1}
L(
y , f (x))
={
1 si f (x) 6= y ,
0 sinon.
La perte SVM :
L(
y , f (x))
= |y − f (x)|+ ou u+ ={
u si u > 0,
0 sinon.
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Quelques exemples de fonctions de perte
La perte `2 ou cout quadratique :
L(
y , f (x))
=(
y − f (x))2
.
La perte `1 ou cout absolu :L(
y , f (x))
= |y − f (x)|.
La perte ε-sensible (ε > 0) :
L(
y , f (x))
= |y − f (x)|ε ou |u|ε ={
0 si |u| < ε,
|u| − ε sinon.
La perte binaire ou cout 0-1 : Y ={
0, 1}
L(
y , f (x))
={
1 si f (x) 6= y ,
0 sinon.
La perte SVM :
L(
y , f (x))
= |y − f (x)|+ ou u+ ={
u si u > 0,
0 sinon.
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Quelques exemples de fonctions de perte
La perte `2 ou cout quadratique :
L(
y , f (x))
=(
y − f (x))2
.
La perte `1 ou cout absolu :L(
y , f (x))
= |y − f (x)|.
La perte ε-sensible (ε > 0) :
L(
y , f (x))
= |y − f (x)|ε ou |u|ε ={
0 si |u| < ε,
|u| − ε sinon.
La perte binaire ou cout 0-1 : Y ={
0, 1}
L(
y , f (x))
={
1 si f (x) 6= y ,
0 sinon.
La perte SVM :
L(
y , f (x))
= |y − f (x)|+ ou u+ ={
u si u > 0,
0 sinon.
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Quelques exemples de fonctions de perte
La perte `2 ou cout quadratique :
L(
y , f (x))
=(
y − f (x))2
.
La perte `1 ou cout absolu :L(
y , f (x))
= |y − f (x)|.
La perte ε-sensible (ε > 0) :
L(
y , f (x))
= |y − f (x)|ε ou |u|ε ={
0 si |u| < ε,
|u| − ε sinon.
La perte binaire ou cout 0-1 : Y ={
0, 1}
L(
y , f (x))
={
1 si f (x) 6= y ,
0 sinon.
La perte SVM :
L(
y , f (x))
= |y − f (x)|+ ou u+ ={
u si u > 0,
0 sinon.
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Quelques exemples de fonctions de perte
La perte `2 ou cout quadratique :
L(
y , f (x))
=(
y − f (x))2
.
La perte `1 ou cout absolu :L(
y , f (x))
= |y − f (x)|.
La perte ε-sensible (ε > 0) :
L(
y , f (x))
= |y − f (x)|ε ou |u|ε ={
0 si |u| < ε,
|u| − ε sinon.
La perte binaire ou cout 0-1 : Y ={
0, 1}
L(
y , f (x))
={
1 si f (x) 6= y ,
0 sinon.
La perte SVM :
L(
y , f (x))
= |y − f (x)|+ ou u+ ={
u si u > 0,
0 sinon.
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data
Introduction
Apprentissage supervise
RegressionLa fonction qui minimise le risque dans le cas de la perte `2, est appeleefonction de regression. Il s’agit de l’esperance conditionnelle :
r(x) = E [y | x ] =∫
ydP(y | x).
ClassificationLa fonction qui minimise le risque sous l’hypothese de la perte 0-1 est appeleeclassifieur de Bayes. Il peut s’exprimer comme la partie entiere de l’esperanceconditionnelle :
b(x) ={
1 si E(y | x) > 0.5,0 sinon.
= br(x)c .
Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data