Upload
didier-girard
View
1.490
Download
2
Tags:
Embed Size (px)
DESCRIPTION
Le machine learning est la science qui permet à un algorithme d’apprendre sans avoir été explicitement programmé pour cela. Elle est utilisée par les acteurs de la nouvelle économie pour le traitement de gros volumes de données, dans la traduction automatique, la reconnaissance de la parole, la classification de consommateur, la construction de réputation, ou la prévision des trafics. C’est la “régulation numérique”. Nous parlerons des champs d’application du machine learning par les gros acteurs du numérique, de ses fondements mathématiques, des grands familles d’algorithmes et des outils disponibles pour mettre en pratique. Découvrez les bases pour comprendre cette science et mesurer le potentiel des possibilités de son utilisation.
Citation preview
Machine Learning & Régulation NumériqueDidier Girard / Guillaume Laforge
SPAM
RECOMMENDATIONS
2011 rank Company 2009 2010 2011
1 Netflix 0.0 % 0.5 % 44.0 %
2 Apple 71.5 % 60.8 % 32.3 %
3 Microsoft 11.2 % 16.7 % 7.6 %
4 Vudu (Walmart) 0.5 % 2.7 % 4.2 %
5 Sony 5.4 % 6.8 % 2.4 %
Others 11.4 % 12.6 % 9.5 %
Total 89 % 87 % 90 %
“Voici mon catalogue” vs “J’ai une video pour vous.”
Yup, NSA does!
Toutes les données, tu récolteras
#MixIT14
#MixIT14
data
machine learning
Définition
Définition Une branche de l’intelligence artificielle qui s’occupe de la
construction et l’étude de systèmes qui apprennent à partir de données
Le parallèle de l’accordeur de piano
Data
Accordeur
Modèle
Les grandes famillesSupervisé vs non-supervisé
SuperviséRégression, classification...
Régression
http://en.wikipedia.org/wiki/Regression_analysis
Un modèle de regression relie Y à une fonction de X et ß
Son Touches Accordeur
Régression linéaire
http://en.wikipedia.org/wiki/Linear_regression
Régression linéaire
Régression linéaire
Régression linéaire
Régression linéaire
Régression linéaire
ATTENTIONcorrélation ≠ causalité
:-)
Ta fonction de coût, tu minimiseras
#MixIT14
Fonction de coût
Régression
Régression — ordre premier
Régression — ordre premier
?
Régression — ordre second
Régression — ordre second
?
Classification
La classification est le problème d'identifier à quel ensemble de catégories (sous-population) une nouvelle observation correspondhttp://en.wikipedia.org/wiki/Statistical_classification
Classification
Classification
Non-superviséClusterisation, séparation de sources...
Clusterisation
Clusterisation
Clusterisation
Séparation de sources
Source 1
Source 2
Séparation de sources
Source 1
Source 2
Observation
Séparation de sources
Source 1
Source 2
Observation
Source séparée 1
Source séparée 2
Tes données, tu visualiseras
#MixIT14
Visualiser
N’apprends pas ce que tu sais déjà
#MixIT14
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Ne pas apprendre ce que l’on sait
Tes données, tu segmenteras
#MixIT14
SegmenterProblème :
● Je vous donne la latitude et la longitude
● Vous devez coder un systeme qui me donne l’altitude
1. un modèle pour toute la France ?2. un modèle par type de relief ?3. un modèle par région ?
Segmenter
Segmenter
Tes données, tu pré-traiteras
#MixIT14
Exemple : Normaliser/Centrer
Exemple : Face Recognition
http://bitsearch.blogspot.com/2013/02/unsupervised-face-clustering-with-opencv.html
Que faire des données manquantes ?
● Supprimer la dimension ?
● Signaler au système apprenant ?
Données aberrantes● Erreur d’
observation ?● Cas exceptionnel ?
Ton algorithme, tu choisiras
#MixIT14
k-nearest neighbors
Wikipedia
Support Vector Machine
Wikipedia
Random tree forest
Neural Networks
Wikipedia
De l’intuition, tu auras
#MixIT14
https://www.flickr.com/photos/hills_alive/3368257480/
Comment caractériser l’intuition ?
Chasse aux champignons ?
Sélectionner les bonnes variables
Sélectionner les bonnes variables
Consommation
● jour de la semaine● vacances scolaires● jours fériés● température
Reconnaissance d’image
● histogramme de couleur
Ton système, tu entraineras
#MixIT14
Apprendre et généraliser
Apprentissage : 60% Généralisation : 40%
Par coeur, tu n’apprendras pas
#MixIT14
Régression — ordre supérieur ?
?
Capacité d’apprentissage d’un système
Capacité d’apprentissage
Complexité des systèmes modélisables
Risque de sur-apprentissage
Pour aller plus loin : VC-DimensionTrois choses entrent en jeu :
● taille de l’échantillon● nombre de paramètres d’ajustement du
modèle● nombre de dimensions de l’espace d’entrée
Intuition : capacité de généralisation
#MixIT14
Ton modèle, tu valideras
#MixIT14
Apprendre, Généraliser et Valider
Apprentissage : 60% Généralisation : 20% Validation : 20%
Ton modèle, tu exécuteras
#MixIT14
A un moment ou un autre… il faut se lancer !
Les recettes de tonton Moïse pour le ML1. Enregistrez toutes les données que vous pourrez2. Observez et visualisez vos données3. Segmentez vos données4. Pré-traitez et normalisez vos données5. Choisissez bien votre algorithme6. Entrainez votre système7. Validez votre système8. Et… exécutez !
Quelques outils● R
http://www.r-project.org/
● Octavehttps://www.gnu.org/software/octave/
● SciKit Learnhttp://scikit-learn.org/
● Apache Mahouthttps://mahout.apache.org/
● Wekahttp://www.cs.waikato.ac.nz/ml/weka/
● Google Predictionhttps://developers.google.com/prediction
● Prediction.IOhttp://prediction.io/
● MADlibhttp://madlib.net/
ConclusionMachine Learning et Régulation Numérique
Le Data Scientist de demain est le Physicien Nucléaire d’hier
BIG DATA IS SCORING YOU#MixIT14
http://money.cnn.com/2014/04/02/pf/consumer-scores/index.html
Consumer profitability
score
Churn scoreJob security
score
Medication adherence
score
Fraud scoreCustomer score
Law enforcement
score
On ne peut pas arrêter la machine...
Apprendre et comprendre comment marche le Machine Learning
Etre au coeur du système, pour le réguler
Les gens éduqués sont les garde-fous des dérives du Machine Learning
#MixIT14
Le monde est entre vos mains ! A vous de jouer !
Didier Girard / Guillaume Laforge@didiergirard @glaforge
Merci
Didier Girard / Guillaume Laforge@didiergirard @glaforge
Questions — réponses