Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Machine Learning et Big Data

Master 1 – Data Science et Modelisation statistique

[email protected] de Bretagne Sud

UFR SSI

2019-2020 : S2

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Introduction

Qu’est-ce que le machine learning ?

Le Machine Learning (apprentissage automatique, apprentissage artificiel,apprentissage statistique) est un champ d’etude de l’intelligence artificielle quise fonde sur des approches mathematiques et statistiques pour donner auxordinateurs la capacite d’ “apprendre” a partir de donnees, c’est-a-dired’ameliorer leurs performances a resoudre des taches sans etre explicitementprogrammes pour chacune. Plus largement, il concerne la conception, l’analyse,l’optimisation, le developpement et l’implementation de telles methodes.

Wikipedia

Imputx ∈ X

î Machinef

î Outputy ∈ Y , y = f (x)

Exemple : la regression simple

DonneesExemplesEtiquettesLabels

Entraınement

îOptimisation

Min. Risque/Erreur

Algorithmesd’apprentissage î Algorithme

appris


Introduction

Apprentissage

On distingue differents types d’apprentissage :l’apprentissage superviseå L’imput x et l’output y sont connus.

Classification bineaire Y ={

0, 1}

Classification multiclasse Y ={

0, . . . , c}

Regression Y = R

l’apprentissage non-superviseå L’input est connu mais l’output n’est pas connu.

Clustering ou partitionnement (analyse factoriel).

Reduction de dimension : projection de X sur un espace de dimension pluspetite.

Estimation de la densite d’une loi de probabilite.

l’apprentissage semi-superviseå Il s’agit d’une combinaison des precedentes approches. Certaines etiquettes ne

sont pas connus. On peut utiliser un modele probabiliste pour faire de l’imputation.


Introduction

Apprentissage

l’apprentissage par renforcementå La machine est concue en cherchant a optimiser une recompense a partir

d’experiences correspondant a differentes situations.

La construction s’appuie sur la theorie de la decision :à actions / recompenses.

Donnees : (si , ai , ri , si+1), s : etat du systeme, a : une action possible, r :une recompense.

Exemple : Entraınement de robot (Boston Dynamics) : robot capable de marcher, courir,grimper, faire des figures de gymnastique, porter des charges lourdes.Apprentissage par “renforcement” : recompense est forte et positive s’il reste debout, sarecompense est negative s’il tombe, par ex.Il est programme pour explorer les differents mouvements qu’il peut effectuer et faire sespropres experiences.C’est ainsi qu’il apprend seul a accomplir et a optimiser des taches : maniere de poser sespieds (vitesse, frequence, angle, etc.) d’une facon tres similaire a un animal ou un humain.

https ://www.youtube.com/watch ?v=M91ISnATDQY

https ://www.youtube.com/watch ?v=WcbGRBPkrps


Introduction

Objectifs

Problemes :•

Algorithmesd’apprentissage

à determiner et caracteriser f

å Inference à estimer f

•

Algorithmeappris

à Prediction (prevision)

å nouvelles donnees x à Reponse y par f .


Introduction

Exemples

Detection de SPAM (messages indesirables)(https ://www.youtube.com/watch ?v=zLih-WQwBSc)

å Classificationx : messagey : reponse, y = 1 si SPAM, y = O sinon.

â Donnees : pourcentage d’occurrence d’un ensemble de mots et decaracteres dans les 2 types de message.

george you your hp free hpl ! our re edu remove

SPAM 0.00 2.26 1.38 0.02 0.52 0.01 0.51 0.51 0.13 0.01 0.28

email 1.27 1.27 0.44 0.90 0.07 0.43 0.11 0.18 0.42 0.29 0.01

â Machine :if (%george >0.6) & (%you>1.5) then y = 1 à SPAM, else email

â Autre machine :if (0.2%you-0.3%george)>0 then y = 1 à SPAM, else email

þ Apprentissage supervise


Introduction

Exemples

Detection de SPAM (messages indesirables)(https ://www.youtube.com/watch ?v=zLih-WQwBSc)

å Classificationx : messagey : reponse, y = 1 si SPAM, y = O sinon.

â Donnees : pourcentage d’occurrence d’un ensemble de mots et decaracteres dans les 2 types de message.

george you your hp free hpl ! our re edu remove

SPAM 0.00 2.26 1.38 0.02 0.52 0.01 0.51 0.51 0.13 0.01 0.28

email 1.27 1.27 0.44 0.90 0.07 0.43 0.11 0.18 0.42 0.29 0.01

â Machine :if (%george >0.6) & (%you>1.5) then y = 1 à SPAM, else email

â Autre machine :if (0.2%you-0.3%george)>0 then y = 1 à SPAM, else email



Introduction

Exemples

Cancer de la prostateDosage de la PSA (prostate specific antigen) permet de depister le cancerde la prostate.

å Regression

x : 8 variables explicatives dont le poids de la prostate (log),le score de Gleason (mesure de l’agressivite du cancer scoreentre 2 et 10), n = 97 patients.

y : reponse à log PSA



Introduction

Exemples

Cancer de la prostateDosage de la PSA (prostate specific antigen) permet de depister le cancerde la prostate.

å Regression

x : 8 variables explicatives dont le poids de la prostate (log),le score de Gleason (mesure de l’agressivite du cancer scoreentre 2 et 10), n = 97 patients.

y : reponse à log PSA



Introduction

Exemples

Reconnaissance d’ecritureTri du courrier : lecture automatique du code postal.

å Classification

y : reponse à

{y=1, reconnu.y=0, non reconnu.

Il s’agit de fabriquer un algorithme, d’entraıner une machine a reconnaıtre unchiffre en faisant le moins d’erreur possible : courrier egare.



Introduction

Exemples

Reconnaissance d’ecritureTri du courrier : lecture automatique du code postal.

å Classification

y : reponse à

{y=1, reconnu.y=0, non reconnu.

Il s’agit de fabriquer un algorithme, d’entraıner une machine a reconnaıtre unchiffre en faisant le moins d’erreur possible : courrier egare.



Introduction

Exemples

Puce a ADN (Biopuce)(DNA-microarray) permet d’analyser leniveau d’expression des genes dans unecellule. Ce niveau est caracterise par unchiffre entre -6 et +6. Une valeur basseindique une faible expression, une valeurhaute indique une expression elevee.Les donnees resultant se presentent sous laforme d’une matrice ou le niveau estrepresente en couleurs (de rouge expressionelevee a jaune expression faible).En ligne, les genes (6830).En colonne, le type de tumeur (64).

å Regressiony : reponse Niveau d’expressionx : (gene, type de tumeur)


å ClusteringClusters de genes ayant des profils similairesle long des tumeurs (6830 points dans un espacedim.64).Clusters de types de tumeurs ayant desprofils similaires le long des genes.

þ Apprentissage non supervisetumeur (individus)

genes


Introduction

Apprentissage supervise

Imput ou donnees d’entree ou generateur aleatoire

x ∈ X ,

x ∼ P(x), la distribution de x .

Output ou reponse ou superviseur ou oracle associe aux imput

y ∈ Y ,

y ∼ P(y | x), la loi de y conditionnellement a x .

Trouver une machine f qui decrive le mieux possible la relation entre lesentrees et les sorties :

y ≈ f (x).

Espace d’hypotheses : ensembles de machines candidates,

H ={

f : X → Y}.


Introduction


Exemple d’espace d’hypothesesSupposons y ∈ R et x ∈ Rq,

H ={

f : X → Y , f (x) = β0 + β′x , β ∈ Rq}.å Prediction lineaire


Introduction


Dans le cadre de la theorie de la DecisionLe choix d’une fonction f correspond a une prise de decision.Toute decision a un cout. Pour mesurer ce cout, on introduit unefonction de perte. Elle permet de mesurer l’erreur encourue lorsqu’onprend la decision f (x) si l’etat de la nature est y :

L(y , f (x)).

Cependant, le caractere aleatoire des acteurs ne permet pas d’arbitrer.On introduit donc la fonction de risque qui est l’esperance de la perte :

R(f ) = E(

L(y , f (x))

=∫

L(

y , f (x))

dP(x , y).

L’objectif de l’apprentissage supervise est alors de trouver la fonction f quiminimise ce risque :

f = argminf ∈H

R(f ).


Introduction

Quelques exemples de fonctions de perte

La perte `2 ou cout quadratique :

L(

y , f (x))

=(

y − f (x))2

.

La perte `1 ou cout absolu :L(

y , f (x))

= |y − f (x)|.

La perte ε-sensible (ε > 0) :

L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.

La perte binaire ou cout 0-1 : Y ={

0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.


Introduction



L(

y , f (x))

=(

y − f (x))2

.


y , f (x))

= |y − f (x)|.


L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.


0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.


Introduction



L(

y , f (x))

=(

y − f (x))2

.


y , f (x))

= |y − f (x)|.


L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.


0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.


Introduction



L(

y , f (x))

=(

y − f (x))2

.


y , f (x))

= |y − f (x)|.


L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.


0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.


Introduction



L(

y , f (x))

=(

y − f (x))2

.


y , f (x))

= |y − f (x)|.


L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.


0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.


Introduction



L(

y , f (x))

=(

y − f (x))2

.


y , f (x))

= |y − f (x)|.


L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.


0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.


Introduction


RegressionLa fonction qui minimise le risque dans le cas de la perte `2, est appeleefonction de regression. Il s’agit de l’esperance conditionnelle :

r(x) = E [y | x ] =∫

ydP(y | x).

ClassificationLa fonction qui minimise le risque sous l’hypothese de la perte 0-1 est appeleeclassifieur de Bayes. Il peut s’exprimer comme la partie entiere de l’esperanceconditionnelle :

b(x) ={

1 si E(y | x) > 0.5,0 sinon.

= br(x)c .


Documents

Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction