22
Introduction Machine Learning et Big Data Master 1 – Data Science et Mod´ elisation statistique [email protected] Universit´ e de Bretagne Sud UFR SSI 2019-2020 : S2 Master 1 – Data Science et Mod´ elisation statistique Machine Learning et Big Data

Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Machine Learning et Big Data

Master 1 – Data Science et Modelisation statistique

[email protected] de Bretagne Sud

UFR SSI

2019-2020 : S2

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 2: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Qu’est-ce que le machine learning ?

Le Machine Learning (apprentissage automatique, apprentissage artificiel,apprentissage statistique) est un champ d’etude de l’intelligence artificielle quise fonde sur des approches mathematiques et statistiques pour donner auxordinateurs la capacite d’ “apprendre” a partir de donnees, c’est-a-dired’ameliorer leurs performances a resoudre des taches sans etre explicitementprogrammes pour chacune. Plus largement, il concerne la conception, l’analyse,l’optimisation, le developpement et l’implementation de telles methodes.

Wikipedia

Imputx ∈ X

î Machinef

î Outputy ∈ Y , y = f (x)

Exemple : la regression simple

DonneesExemplesEtiquettesLabels

Entraınement

îOptimisation

Min. Risque/Erreur

Algorithmesd’apprentissage î Algorithme

appris

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 3: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Apprentissage

On distingue differents types d’apprentissage :l’apprentissage superviseå L’imput x et l’output y sont connus.

Classification bineaire Y ={

0, 1}

Classification multiclasse Y ={

0, . . . , c}

Regression Y = R

l’apprentissage non-superviseå L’input est connu mais l’output n’est pas connu.

Clustering ou partitionnement (analyse factoriel).

Reduction de dimension : projection de X sur un espace de dimension pluspetite.

Estimation de la densite d’une loi de probabilite.

l’apprentissage semi-superviseå Il s’agit d’une combinaison des precedentes approches. Certaines etiquettes ne

sont pas connus. On peut utiliser un modele probabiliste pour faire de l’imputation.

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 4: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Apprentissage

l’apprentissage par renforcementå La machine est concue en cherchant a optimiser une recompense a partir

d’experiences correspondant a differentes situations.

La construction s’appuie sur la theorie de la decision :à actions / recompenses.

Donnees : (si , ai , ri , si+1), s : etat du systeme, a : une action possible, r :une recompense.

Exemple : Entraınement de robot (Boston Dynamics) : robot capable de marcher, courir,grimper, faire des figures de gymnastique, porter des charges lourdes.Apprentissage par “renforcement” : recompense est forte et positive s’il reste debout, sarecompense est negative s’il tombe, par ex.Il est programme pour explorer les differents mouvements qu’il peut effectuer et faire sespropres experiences.C’est ainsi qu’il apprend seul a accomplir et a optimiser des taches : maniere de poser sespieds (vitesse, frequence, angle, etc.) d’une facon tres similaire a un animal ou un humain.

https ://www.youtube.com/watch ?v=M91ISnATDQY

https ://www.youtube.com/watch ?v=WcbGRBPkrps

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 5: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Objectifs

Problemes :•

Algorithmesd’apprentissage

à determiner et caracteriser f

å Inference à estimer f

Algorithmeappris

à Prediction (prevision)

å nouvelles donnees x à Reponse y par f .

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 6: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Exemples

Detection de SPAM (messages indesirables)(https ://www.youtube.com/watch ?v=zLih-WQwBSc)

å Classificationx : messagey : reponse, y = 1 si SPAM, y = O sinon.

â Donnees : pourcentage d’occurrence d’un ensemble de mots et decaracteres dans les 2 types de message.

george you your hp free hpl ! our re edu remove

SPAM 0.00 2.26 1.38 0.02 0.52 0.01 0.51 0.51 0.13 0.01 0.28

email 1.27 1.27 0.44 0.90 0.07 0.43 0.11 0.18 0.42 0.29 0.01

â Machine :if (%george >0.6) & (%you>1.5) then y = 1 à SPAM, else email

â Autre machine :if (0.2%you-0.3%george)>0 then y = 1 à SPAM, else email

þ Apprentissage supervise

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 7: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Exemples

Detection de SPAM (messages indesirables)(https ://www.youtube.com/watch ?v=zLih-WQwBSc)

å Classificationx : messagey : reponse, y = 1 si SPAM, y = O sinon.

â Donnees : pourcentage d’occurrence d’un ensemble de mots et decaracteres dans les 2 types de message.

george you your hp free hpl ! our re edu remove

SPAM 0.00 2.26 1.38 0.02 0.52 0.01 0.51 0.51 0.13 0.01 0.28

email 1.27 1.27 0.44 0.90 0.07 0.43 0.11 0.18 0.42 0.29 0.01

â Machine :if (%george >0.6) & (%you>1.5) then y = 1 à SPAM, else email

â Autre machine :if (0.2%you-0.3%george)>0 then y = 1 à SPAM, else email

þ Apprentissage supervise

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 8: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Exemples

Cancer de la prostateDosage de la PSA (prostate specific antigen) permet de depister le cancerde la prostate.

å Regression

x : 8 variables explicatives dont le poids de la prostate (log),le score de Gleason (mesure de l’agressivite du cancer scoreentre 2 et 10), n = 97 patients.

y : reponse à log PSA

þ Apprentissage supervise

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 9: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Exemples

Cancer de la prostateDosage de la PSA (prostate specific antigen) permet de depister le cancerde la prostate.

å Regression

x : 8 variables explicatives dont le poids de la prostate (log),le score de Gleason (mesure de l’agressivite du cancer scoreentre 2 et 10), n = 97 patients.

y : reponse à log PSA

þ Apprentissage supervise

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 10: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Exemples

Reconnaissance d’ecritureTri du courrier : lecture automatique du code postal.

å Classification

y : reponse à

{y=1, reconnu.y=0, non reconnu.

Il s’agit de fabriquer un algorithme, d’entraıner une machine a reconnaıtre unchiffre en faisant le moins d’erreur possible : courrier egare.

þ Apprentissage supervise

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 11: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Exemples

Reconnaissance d’ecritureTri du courrier : lecture automatique du code postal.

å Classification

y : reponse à

{y=1, reconnu.y=0, non reconnu.

Il s’agit de fabriquer un algorithme, d’entraıner une machine a reconnaıtre unchiffre en faisant le moins d’erreur possible : courrier egare.

þ Apprentissage supervise

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 12: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Exemples

Puce a ADN (Biopuce)(DNA-microarray) permet d’analyser leniveau d’expression des genes dans unecellule. Ce niveau est caracterise par unchiffre entre -6 et +6. Une valeur basseindique une faible expression, une valeurhaute indique une expression elevee.Les donnees resultant se presentent sous laforme d’une matrice ou le niveau estrepresente en couleurs (de rouge expressionelevee a jaune expression faible).En ligne, les genes (6830).En colonne, le type de tumeur (64).

å Regressiony : reponse Niveau d’expressionx : (gene, type de tumeur)

þ Apprentissage supervise

å ClusteringClusters de genes ayant des profils similairesle long des tumeurs (6830 points dans un espacedim.64).Clusters de types de tumeurs ayant desprofils similaires le long des genes.

þ Apprentissage non supervisetumeur (individus)

genes

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 13: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Apprentissage supervise

Imput ou donnees d’entree ou generateur aleatoire

x ∈ X ,

x ∼ P(x), la distribution de x .

Output ou reponse ou superviseur ou oracle associe aux imput

y ∈ Y ,

y ∼ P(y | x), la loi de y conditionnellement a x .

Trouver une machine f qui decrive le mieux possible la relation entre lesentrees et les sorties :

y ≈ f (x).

Espace d’hypotheses : ensembles de machines candidates,

H ={

f : X → Y}.

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 14: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Apprentissage supervise

Exemple d’espace d’hypothesesSupposons y ∈ R et x ∈ Rq,

H ={

f : X → Y , f (x) = β0 + β′x , β ∈ Rq}.å Prediction lineaire

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 15: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Apprentissage supervise

Dans le cadre de la theorie de la DecisionLe choix d’une fonction f correspond a une prise de decision.Toute decision a un cout. Pour mesurer ce cout, on introduit unefonction de perte. Elle permet de mesurer l’erreur encourue lorsqu’onprend la decision f (x) si l’etat de la nature est y :

L(y , f (x)).

Cependant, le caractere aleatoire des acteurs ne permet pas d’arbitrer.On introduit donc la fonction de risque qui est l’esperance de la perte :

R(f ) = E(

L(y , f (x))

=∫

L(

y , f (x))

dP(x , y).

L’objectif de l’apprentissage supervise est alors de trouver la fonction f quiminimise ce risque :

f = argminf ∈H

R(f ).

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 16: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Quelques exemples de fonctions de perte

La perte `2 ou cout quadratique :

L(

y , f (x))

=(

y − f (x))2

.

La perte `1 ou cout absolu :L(

y , f (x))

= |y − f (x)|.

La perte ε-sensible (ε > 0) :

L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.

La perte binaire ou cout 0-1 : Y ={

0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 17: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Quelques exemples de fonctions de perte

La perte `2 ou cout quadratique :

L(

y , f (x))

=(

y − f (x))2

.

La perte `1 ou cout absolu :L(

y , f (x))

= |y − f (x)|.

La perte ε-sensible (ε > 0) :

L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.

La perte binaire ou cout 0-1 : Y ={

0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 18: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Quelques exemples de fonctions de perte

La perte `2 ou cout quadratique :

L(

y , f (x))

=(

y − f (x))2

.

La perte `1 ou cout absolu :L(

y , f (x))

= |y − f (x)|.

La perte ε-sensible (ε > 0) :

L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.

La perte binaire ou cout 0-1 : Y ={

0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 19: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Quelques exemples de fonctions de perte

La perte `2 ou cout quadratique :

L(

y , f (x))

=(

y − f (x))2

.

La perte `1 ou cout absolu :L(

y , f (x))

= |y − f (x)|.

La perte ε-sensible (ε > 0) :

L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.

La perte binaire ou cout 0-1 : Y ={

0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 20: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Quelques exemples de fonctions de perte

La perte `2 ou cout quadratique :

L(

y , f (x))

=(

y − f (x))2

.

La perte `1 ou cout absolu :L(

y , f (x))

= |y − f (x)|.

La perte ε-sensible (ε > 0) :

L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.

La perte binaire ou cout 0-1 : Y ={

0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 21: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Quelques exemples de fonctions de perte

La perte `2 ou cout quadratique :

L(

y , f (x))

=(

y − f (x))2

.

La perte `1 ou cout absolu :L(

y , f (x))

= |y − f (x)|.

La perte ε-sensible (ε > 0) :

L(

y , f (x))

= |y − f (x)|ε ou |u|ε ={

0 si |u| < ε,

|u| − ε sinon.

La perte binaire ou cout 0-1 : Y ={

0, 1}

L(

y , f (x))

={

1 si f (x) 6= y ,

0 sinon.

La perte SVM :

L(

y , f (x))

= |y − f (x)|+ ou u+ ={

u si u > 0,

0 sinon.

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data

Page 22: Machine Learning et Big Data - thatit.free.frthatit.free.fr/DIAPOS/0-M1_ML.pdf · Master 1 – Data Science et Mod´elisation statistique Machine Learning et Big Data. Introduction

Introduction

Apprentissage supervise

RegressionLa fonction qui minimise le risque dans le cas de la perte `2, est appeleefonction de regression. Il s’agit de l’esperance conditionnelle :

r(x) = E [y | x ] =∫

ydP(y | x).

ClassificationLa fonction qui minimise le risque sous l’hypothese de la perte 0-1 est appeleeclassifieur de Bayes. Il peut s’exprimer comme la partie entiere de l’esperanceconditionnelle :

b(x) ={

1 si E(y | x) > 0.5,0 sinon.

= br(x)c .

Master 1 – Data Science et Modelisation statistique Machine Learning et Big Data