89
Machine Learning & Régulation Numérique Didier Girard / Guillaume Laforge

Mix it2014 - Machine Learning et Régulation Numérique

Embed Size (px)

DESCRIPTION

Le machine learning est la science qui permet à un algorithme d’apprendre sans avoir été explicitement programmé pour cela. Elle est utilisée par les acteurs de la nouvelle économie pour le traitement de gros volumes de données, dans la traduction automatique, la reconnaissance de la parole, la classification de consommateur, la construction de réputation, ou la prévision des trafics. C’est la “régulation numérique”. Nous parlerons des champs d’application du machine learning par les gros acteurs du numérique, de ses fondements mathématiques, des grands familles d’algorithmes et des outils disponibles pour mettre en pratique. Découvrez les bases pour comprendre cette science et mesurer le potentiel des possibilités de son utilisation.

Citation preview

Page 1: Mix it2014 - Machine Learning et Régulation Numérique

Machine Learning & Régulation NumériqueDidier Girard / Guillaume Laforge

Page 2: Mix it2014 - Machine Learning et Régulation Numérique

SPAM

Page 3: Mix it2014 - Machine Learning et Régulation Numérique

RECOMMENDATIONS

Page 4: Mix it2014 - Machine Learning et Régulation Numérique

2011 rank Company 2009 2010 2011

1 Netflix 0.0 % 0.5 % 44.0 %

2 Apple 71.5 % 60.8 % 32.3 %

3 Microsoft 11.2 % 16.7 % 7.6 %

4 Vudu (Walmart) 0.5 % 2.7 % 4.2 %

5 Sony 5.4 % 6.8 % 2.4 %

Others 11.4 % 12.6 % 9.5 %

Total 89 % 87 % 90 %

“Voici mon catalogue” vs “J’ai une video pour vous.”

Page 5: Mix it2014 - Machine Learning et Régulation Numérique
Page 6: Mix it2014 - Machine Learning et Régulation Numérique

Yup, NSA does!

Page 7: Mix it2014 - Machine Learning et Régulation Numérique

Toutes les données, tu récolteras

#MixIT14

#MixIT14

Page 8: Mix it2014 - Machine Learning et Régulation Numérique

data

machine learning

Page 9: Mix it2014 - Machine Learning et Régulation Numérique

Définition

Page 10: Mix it2014 - Machine Learning et Régulation Numérique
Page 11: Mix it2014 - Machine Learning et Régulation Numérique

Définition Une branche de l’intelligence artificielle qui s’occupe de la

construction et l’étude de systèmes qui apprennent à partir de données

Page 12: Mix it2014 - Machine Learning et Régulation Numérique

Le parallèle de l’accordeur de piano

Data

Accordeur

Modèle

Page 13: Mix it2014 - Machine Learning et Régulation Numérique

Les grandes famillesSupervisé vs non-supervisé

Page 14: Mix it2014 - Machine Learning et Régulation Numérique

SuperviséRégression, classification...

Page 15: Mix it2014 - Machine Learning et Régulation Numérique

Régression

http://en.wikipedia.org/wiki/Regression_analysis

Un modèle de regression relie Y à une fonction de X et ß

Son Touches Accordeur

Page 16: Mix it2014 - Machine Learning et Régulation Numérique

Régression linéaire

http://en.wikipedia.org/wiki/Linear_regression

Page 17: Mix it2014 - Machine Learning et Régulation Numérique

Régression linéaire

Page 18: Mix it2014 - Machine Learning et Régulation Numérique

Régression linéaire

Page 19: Mix it2014 - Machine Learning et Régulation Numérique

Régression linéaire

Page 20: Mix it2014 - Machine Learning et Régulation Numérique

Régression linéaire

Page 21: Mix it2014 - Machine Learning et Régulation Numérique

Régression linéaire

Page 22: Mix it2014 - Machine Learning et Régulation Numérique

ATTENTIONcorrélation ≠ causalité

:-)

Page 23: Mix it2014 - Machine Learning et Régulation Numérique

Ta fonction de coût, tu minimiseras

#MixIT14

Page 24: Mix it2014 - Machine Learning et Régulation Numérique

Fonction de coût

Page 25: Mix it2014 - Machine Learning et Régulation Numérique

Régression

Page 26: Mix it2014 - Machine Learning et Régulation Numérique

Régression — ordre premier

Page 27: Mix it2014 - Machine Learning et Régulation Numérique

Régression — ordre premier

?

Page 28: Mix it2014 - Machine Learning et Régulation Numérique

Régression — ordre second

Page 29: Mix it2014 - Machine Learning et Régulation Numérique

Régression — ordre second

?

Page 30: Mix it2014 - Machine Learning et Régulation Numérique

Classification

La classification est le problème d'identifier à quel ensemble de catégories (sous-population) une nouvelle observation correspondhttp://en.wikipedia.org/wiki/Statistical_classification

Page 31: Mix it2014 - Machine Learning et Régulation Numérique

Classification

Page 32: Mix it2014 - Machine Learning et Régulation Numérique

Classification

Page 33: Mix it2014 - Machine Learning et Régulation Numérique

Non-superviséClusterisation, séparation de sources...

Page 34: Mix it2014 - Machine Learning et Régulation Numérique

Clusterisation

Page 35: Mix it2014 - Machine Learning et Régulation Numérique

Clusterisation

Page 36: Mix it2014 - Machine Learning et Régulation Numérique

Clusterisation

Page 37: Mix it2014 - Machine Learning et Régulation Numérique

Séparation de sources

Source 1

Source 2

Page 38: Mix it2014 - Machine Learning et Régulation Numérique

Séparation de sources

Source 1

Source 2

Observation

Page 39: Mix it2014 - Machine Learning et Régulation Numérique

Séparation de sources

Source 1

Source 2

Observation

Source séparée 1

Source séparée 2

Page 40: Mix it2014 - Machine Learning et Régulation Numérique

Tes données, tu visualiseras

#MixIT14

Page 41: Mix it2014 - Machine Learning et Régulation Numérique

Visualiser

Page 42: Mix it2014 - Machine Learning et Régulation Numérique

N’apprends pas ce que tu sais déjà

#MixIT14

Page 43: Mix it2014 - Machine Learning et Régulation Numérique

Ne pas apprendre ce que l’on sait

Page 44: Mix it2014 - Machine Learning et Régulation Numérique

Ne pas apprendre ce que l’on sait

Page 45: Mix it2014 - Machine Learning et Régulation Numérique

Ne pas apprendre ce que l’on sait

Page 46: Mix it2014 - Machine Learning et Régulation Numérique

Ne pas apprendre ce que l’on sait

Page 47: Mix it2014 - Machine Learning et Régulation Numérique

Tes données, tu segmenteras

#MixIT14

Page 48: Mix it2014 - Machine Learning et Régulation Numérique

SegmenterProblème :

● Je vous donne la latitude et la longitude

● Vous devez coder un systeme qui me donne l’altitude

1. un modèle pour toute la France ?2. un modèle par type de relief ?3. un modèle par région ?

Page 49: Mix it2014 - Machine Learning et Régulation Numérique

Segmenter

Page 50: Mix it2014 - Machine Learning et Régulation Numérique

Segmenter

Page 51: Mix it2014 - Machine Learning et Régulation Numérique

Tes données, tu pré-traiteras

#MixIT14

Page 52: Mix it2014 - Machine Learning et Régulation Numérique

Exemple : Normaliser/Centrer

Page 53: Mix it2014 - Machine Learning et Régulation Numérique

Exemple : Face Recognition

http://bitsearch.blogspot.com/2013/02/unsupervised-face-clustering-with-opencv.html

Page 54: Mix it2014 - Machine Learning et Régulation Numérique

Que faire des données manquantes ?

● Supprimer la dimension ?

● Signaler au système apprenant ?

Page 55: Mix it2014 - Machine Learning et Régulation Numérique

Données aberrantes● Erreur d’

observation ?● Cas exceptionnel ?

Page 56: Mix it2014 - Machine Learning et Régulation Numérique

Ton algorithme, tu choisiras

#MixIT14

Page 57: Mix it2014 - Machine Learning et Régulation Numérique

k-nearest neighbors

Wikipedia

Page 58: Mix it2014 - Machine Learning et Régulation Numérique

Support Vector Machine

Wikipedia

Page 59: Mix it2014 - Machine Learning et Régulation Numérique

Random tree forest

Page 60: Mix it2014 - Machine Learning et Régulation Numérique

Neural Networks

Wikipedia

Page 61: Mix it2014 - Machine Learning et Régulation Numérique

De l’intuition, tu auras

#MixIT14

Page 62: Mix it2014 - Machine Learning et Régulation Numérique

https://www.flickr.com/photos/hills_alive/3368257480/

Comment caractériser l’intuition ?

Chasse aux champignons ?

Page 63: Mix it2014 - Machine Learning et Régulation Numérique

Sélectionner les bonnes variables

Page 64: Mix it2014 - Machine Learning et Régulation Numérique

Sélectionner les bonnes variables

Consommation

● jour de la semaine● vacances scolaires● jours fériés● température

Reconnaissance d’image

● histogramme de couleur

Page 65: Mix it2014 - Machine Learning et Régulation Numérique

Ton système, tu entraineras

#MixIT14

Page 66: Mix it2014 - Machine Learning et Régulation Numérique

Apprendre et généraliser

Apprentissage : 60% Généralisation : 40%

Page 67: Mix it2014 - Machine Learning et Régulation Numérique

Par coeur, tu n’apprendras pas

#MixIT14

Page 68: Mix it2014 - Machine Learning et Régulation Numérique

Régression — ordre supérieur ?

?

Page 69: Mix it2014 - Machine Learning et Régulation Numérique

Capacité d’apprentissage d’un système

Capacité d’apprentissage

Complexité des systèmes modélisables

Risque de sur-apprentissage

Page 70: Mix it2014 - Machine Learning et Régulation Numérique

Pour aller plus loin : VC-DimensionTrois choses entrent en jeu :

● taille de l’échantillon● nombre de paramètres d’ajustement du

modèle● nombre de dimensions de l’espace d’entrée

Page 71: Mix it2014 - Machine Learning et Régulation Numérique

Intuition : capacité de généralisation

#MixIT14

Page 72: Mix it2014 - Machine Learning et Régulation Numérique

Ton modèle, tu valideras

#MixIT14

Page 73: Mix it2014 - Machine Learning et Régulation Numérique

Apprendre, Généraliser et Valider

Apprentissage : 60% Généralisation : 20% Validation : 20%

Page 74: Mix it2014 - Machine Learning et Régulation Numérique

Ton modèle, tu exécuteras

#MixIT14

Page 75: Mix it2014 - Machine Learning et Régulation Numérique

A un moment ou un autre… il faut se lancer !

Page 76: Mix it2014 - Machine Learning et Régulation Numérique
Page 77: Mix it2014 - Machine Learning et Régulation Numérique

Les recettes de tonton Moïse pour le ML1. Enregistrez toutes les données que vous pourrez2. Observez et visualisez vos données3. Segmentez vos données4. Pré-traitez et normalisez vos données5. Choisissez bien votre algorithme6. Entrainez votre système7. Validez votre système8. Et… exécutez !

Page 78: Mix it2014 - Machine Learning et Régulation Numérique

Quelques outils● R

http://www.r-project.org/

● Octavehttps://www.gnu.org/software/octave/

● SciKit Learnhttp://scikit-learn.org/

● Apache Mahouthttps://mahout.apache.org/

● Wekahttp://www.cs.waikato.ac.nz/ml/weka/

● Google Predictionhttps://developers.google.com/prediction

● Prediction.IOhttp://prediction.io/

● MADlibhttp://madlib.net/

Page 79: Mix it2014 - Machine Learning et Régulation Numérique

ConclusionMachine Learning et Régulation Numérique

Page 80: Mix it2014 - Machine Learning et Régulation Numérique

Le Data Scientist de demain est le Physicien Nucléaire d’hier

Page 81: Mix it2014 - Machine Learning et Régulation Numérique

BIG DATA IS SCORING YOU#MixIT14

Page 82: Mix it2014 - Machine Learning et Régulation Numérique

http://money.cnn.com/2014/04/02/pf/consumer-scores/index.html

Consumer profitability

score

Churn scoreJob security

score

Medication adherence

score

Fraud scoreCustomer score

Law enforcement

score

Page 83: Mix it2014 - Machine Learning et Régulation Numérique

On ne peut pas arrêter la machine...

Page 84: Mix it2014 - Machine Learning et Régulation Numérique

Apprendre et comprendre comment marche le Machine Learning

Page 85: Mix it2014 - Machine Learning et Régulation Numérique

Etre au coeur du système, pour le réguler

Page 86: Mix it2014 - Machine Learning et Régulation Numérique

Les gens éduqués sont les garde-fous des dérives du Machine Learning

#MixIT14

Page 87: Mix it2014 - Machine Learning et Régulation Numérique

Le monde est entre vos mains ! A vous de jouer !

Page 88: Mix it2014 - Machine Learning et Régulation Numérique

Didier Girard / Guillaume Laforge@didiergirard @glaforge

Merci

Page 89: Mix it2014 - Machine Learning et Régulation Numérique

Didier Girard / Guillaume Laforge@didiergirard @glaforge

Questions — réponses