Mix it2014 - Machine Learning et Régulation Numérique

Machine Learning & Régulation NumériqueDidier Girard / Guillaume Laforge

SPAM

RECOMMENDATIONS

2011 rank Company 2009 2010 2011

1 Netflix 0.0 % 0.5 % 44.0 %

2 Apple 71.5 % 60.8 % 32.3 %

3 Microsoft 11.2 % 16.7 % 7.6 %

4 Vudu (Walmart) 0.5 % 2.7 % 4.2 %

5 Sony 5.4 % 6.8 % 2.4 %

Others 11.4 % 12.6 % 9.5 %

Total 89 % 87 % 90 %

“Voici mon catalogue” vs “J’ai une video pour vous.”

Yup, NSA does!

Toutes les données, tu récolteras

#MixIT14

#MixIT14

data

machine learning

Définition

Définition Une branche de l’intelligence artificielle qui s’occupe de la

construction et l’étude de systèmes qui apprennent à partir de données

Le parallèle de l’accordeur de piano

Data

Accordeur

Modèle

Les grandes famillesSupervisé vs non-supervisé

SuperviséRégression, classification...

Régression

http://en.wikipedia.org/wiki/Regression_analysis

Un modèle de regression relie Y à une fonction de X et ß

Son Touches Accordeur

Régression linéaire

http://en.wikipedia.org/wiki/Linear_regression






ATTENTIONcorrélation ≠ causalité

:-)

Ta fonction de coût, tu minimiseras

#MixIT14

Fonction de coût

Régression

Régression — ordre premier

Régression — ordre premier

?

Régression — ordre second

Régression — ordre second

?

Classification

La classification est le problème d'identifier à quel ensemble de catégories (sous-population) une nouvelle observation correspondhttp://en.wikipedia.org/wiki/Statistical_classification

http://en.wikipedia.org/wiki/Statistical_classification

http://en.wikipedia.org/wiki/Statistical_classification

Classification

Classification

Non-superviséClusterisation, séparation de sources...

Clusterisation

Clusterisation

Clusterisation

Séparation de sources

Source 1

Source 2


Source 1

Source 2

Observation


Source 1

Source 2

Observation

Source séparée 1

Source séparée 2

Tes données, tu visualiseras

#MixIT14

Visualiser

N’apprends pas ce que tu sais déjà

#MixIT14

Ne pas apprendre ce que l’on sait




Tes données, tu segmenteras

#MixIT14

SegmenterProblème :

● Je vous donne la latitude et la longitude

● Vous devez coder un systeme qui me donne l’altitude

1. un modèle pour toute la France ?2. un modèle par type de relief ?3. un modèle par région ?

Segmenter

Segmenter

Tes données, tu pré-traiteras

#MixIT14

Exemple : Normaliser/Centrer

Exemple : Face Recognition

http://bitsearch.blogspot.com/2013/02/unsupervised-face-clustering-with-opencv.html

Que faire des données manquantes ?

● Supprimer la dimension ?

● Signaler au système apprenant ?

Données aberrantes● Erreur d’

observation ?● Cas exceptionnel ?

Ton algorithme, tu choisiras

#MixIT14

k-nearest neighbors

Wikipedia

Support Vector Machine

Wikipedia

Random tree forest

Neural Networks

Wikipedia

De l’intuition, tu auras

#MixIT14

https://www.flickr.com/photos/hills_alive/3368257480/

Comment caractériser l’intuition ?

Chasse aux champignons ?

Sélectionner les bonnes variables

Sélectionner les bonnes variables

Consommation

● jour de la semaine● vacances scolaires● jours fériés● température

Reconnaissance d’image

● histogramme de couleur

Ton système, tu entraineras

#MixIT14

Apprendre et généraliser

Apprentissage : 60% Généralisation : 40%

Par coeur, tu n’apprendras pas

#MixIT14

Régression — ordre supérieur ?

?

Capacité d’apprentissage d’un système

Capacité d’apprentissage

Complexité des systèmes modélisables

Risque de sur-apprentissage

Pour aller plus loin : VC-DimensionTrois choses entrent en jeu :

● taille de l’échantillon● nombre de paramètres d’ajustement du

modèle● nombre de dimensions de l’espace d’entrée

Intuition : capacité de généralisation

#MixIT14

Ton modèle, tu valideras

#MixIT14

Apprendre, Généraliser et Valider

Apprentissage : 60% Généralisation : 20% Validation : 20%

Ton modèle, tu exécuteras

#MixIT14

A un moment ou un autre… il faut se lancer !

Les recettes de tonton Moïse pour le ML1. Enregistrez toutes les données que vous pourrez2. Observez et visualisez vos données3. Segmentez vos données4. Pré-traitez et normalisez vos données5. Choisissez bien votre algorithme6. Entrainez votre système7. Validez votre système8. Et… exécutez !

Quelques outils● R

http://www.r-project.org/

● Octavehttps://www.gnu.org/software/octave/

● SciKit Learnhttp://scikit-learn.org/

● Apache Mahouthttps://mahout.apache.org/

● Wekahttp://www.cs.waikato.ac.nz/ml/weka/

● Google Predictionhttps://developers.google.com/prediction

● Prediction.IOhttp://prediction.io/

● MADlibhttp://madlib.net/



https://www.gnu.org/software/octave/

https://www.gnu.org/software/octave/

http://scikit-learn.org/stable/

http://scikit-learn.org/stable/

https://mahout.apache.org/

https://mahout.apache.org/

http://www.cs.waikato.ac.nz/ml/weka/

http://www.cs.waikato.ac.nz/ml/weka/

https://developers.google.com/prediction/

https://developers.google.com/prediction/

http://prediction.io/

http://prediction.io/

http://madlib.net/

http://madlib.net/

ConclusionMachine Learning et Régulation Numérique

Le Data Scientist de demain est le Physicien Nucléaire d’hier

BIG DATA IS SCORING YOU#MixIT14

http://money.cnn.com/2014/04/02/pf/consumer-scores/index.html

Consumer profitability

score

Churn scoreJob security

score

Medication adherence

score

Fraud scoreCustomer score

Law enforcement

score



On ne peut pas arrêter la machine...

Apprendre et comprendre comment marche le Machine Learning

Etre au coeur du système, pour le réguler

Les gens éduqués sont les garde-fous des dérives du Machine Learning

#MixIT14

Le monde est entre vos mains ! A vous de jouer !

Didier Girard / Guillaume Laforge@didiergirard @glaforge

Merci

Didier Girard / Guillaume Laforge@didiergirard @glaforge

Questions — réponses

Technology

Mix it2014 - Machine Learning et Régulation Numérique