Upload
others
View
33
Download
0
Embed Size (px)
Citation preview
Data Science et Intelligence ArtificielleIA et DataScience dans le cloudEtat de l’art
Votre animateur
06.80 96 68 90 01 56 21 22 79
Directeur Data Science Groupe
Didier Gaultier
@didier_gaultier
Le RDV DataScience
600Projets
2.400Talents
11Pays
212 M€CA 2017
Expert en data depuis 1992
Business & Décision
c’est la DATA et le DIGITAL
Quelques faits d’armes de nos Data Scientists
18/04/2018Le RDV DataScience
Intelligence Artificielle et DataScienceEvolution ou révolution ?
8
Aut
omat
isat
ion
Exemples d’applications
L’I.A. et l’industrialisation sont l’aboutissement de la DataScience
I.A.
Machine Learning
Analyse prédictive
Analyse statistiqueet Inférentielle
Statistique générale
Préparation et recodage des données
Segmentation des clients par fréquence d’achat
> 6 mois / 6 -12 mois / < 12 mois
KPI : 58% de nos clients ont effectués un achats sur les 6 derniers
mois
Expliquer : Identifier les critères discriminants, classification des
clients par comportement
Prédiction des clients qui vont partir à la concurrence dans les 6 mois
Apprentissage automatisé sur des comportements d’achat
ChatBot d’un conseiller clientèle Frontière floue entre les
domaines
Le RDV DataScience
La DataScience : un scope de plus en plus large
Le scope des activités de Data Science s’élargit de plus en plus
Analyse exploratoire
Analyse descriptive et
qualité des données
Data PréparationAnalyse
Inférentielle et prédictive
Analyse explicative et
causale
Machine learning auto
apprenant
Intelligence artificielle mono et multi agents
Industrialisation de modèles
Calculs temps réel
Qu’est-ce que l’IA
Ref : Artificial intelligence : a modern approach/ Stuart Russell, Peter Norvig
Ce qui peut également s’illustrer comme suit
La DataScience est bâtie suivant un bio-mimétisme avec l’humain
MémoireStockage, nettoyage, organisation et croisement des données
RaisonnementExploitation des données pour leur
apporter de l’intelligence
Conscience Ethique dans l’utilisation des donnéesGouvernance et organisation pour un
bon usage dans l’entreprise
RécolteDigitalisation des informations
Action Industrialisation, automatisation
Action via des actionneurs
18/04/2018Le RDV DataScience
Intelligence Artificielle et DataScience.Cas d’usage
• Contexte :• Ouverture des marchés Européens• 75 000 facteurs, 40 Millions de plis par jour, 14 Milliards de plis chaque année• 120 Millions de transactions par jour• Besoin d’optimiser les tournées des facteurs• Enjeux financiers et humains forts
Attente du Client : Optimiser le passage des facteurs en fonction des engagementscontractuels et de la fréquence de réception de plis urgents
Notre réponse & résultats : Accompagnement sur le typage des points de distribution (PDI), puis optimisation de la distribution du courrier par type de PDI
• Mise en place d’une équipe mixte Data Scientists, Data Engineers • Constitution d’un Dataset dédié ( base de plus de 100 To)• Création d’une typologie des points de distribution du courrier (PDI)• Elaboration d’un modèle d’optimisation de la distribution par type de PDI• Test du modèle sur le département du 77 puis industrialisation • Déploiement en collaboration avec la DSI France sur 1000 centres de tri en 2017• Déploiement sur 1300 centres supplémentaires d’ici 2018
OPTIMISATION DE LA DISTRIBUTION DU COURRIER PAR TYPOLOGIE DE POINTS DE DISTRIBUTION ET RECOMMANDATION
Intelligence Artificielle et DataScienceAlgorithmes d’apprentissage et I.A.
Evolution et différents types d’ I.A.
Interaction de l’agent avec son environnement
18/04/2018Le RDV DataScience
Etat sRécompense R Action a
Comparaison avec l’action de dresser un chien
18/04/2018Le RDV DataScience
La notion de récompense
18/04/2018Le RDV DataScience
L’apprentissage est plus simple pour un robot
18/04/2018Le RDV DataScience
Le principe même de l’apprentissage suppose l’échec
Le RDV DataScience 18/04/2018
Les 4 types d’apprentissages (du plus simple au plus complexe)
Non supervisé Supervisé Renforcé Profond(Unsupervised) (Supervised) (reinforcement) (deep)
Exemples d’applications :
Text Mining Analyse de sentiment Robot de nettoyage Voiture autonomeTypologies Classifications Next Best Offer Reconnaissance
d’images
Fonctionnement de l’apprentissage non supervisé
Modèle
Exemple d’application : Segmentation des clients, analyse des caractéristiques d’un point de vente
18/04/2018Le RDV DataScience
Variables explicatives
X1X2X3…Xi…Xp
Nouveaux indicateurs
Y1Y2Y3…Yi…Yq
Fonctionnement de l’apprentissage supervisé
Population totale des clients :Rapport de satisfaction
Echantillon dit d’apprentissage
Utilisation de la prédiction sur la population complète de clients
Modélisation des causes d’insatisfaction sur l’échantillon
Extension à la population complète des clients
On suppose que l’on connait les causes d’insatisfaction sur un échantillon de clients
18/04/2018Le RDV DataScience
Apprentissage supervisé
Variables explicatives
X1X2X3…Xi…Xp
Variable à prédire
Y
18/04/2018Le RDV DataScience
Modèle
Apprentissage renforcé
18/04/2018Le RDV DataScience
Exemple : moteur de recommandation produit
Variables explicatives
X1X2X3…Xi…Xp
Prédiction
YModèle Estimation de l’écart
Rétro propagation (rétroaction)
Injection de la valeur du résultat Y obtenu réellement (soit en valeur, soit en résultat)
Ecart
Video Demo d’un “Crawler Bot” utilisant l’apprentissage renforcé
Son but :Avancer vers la droiteAvec seulement 2 articulations
On assiste à une complexification des algorithmes :§ Bootstrapping§ Bagging§ Boosting§ Deep LearningL’amélioration de la complexité à un prix : il faut (parfois considérablement) augmenter la taille de l’échantillon d’apprentissageChercher un compromis Robustesse/Précision/Complexité
Des algorithmes de plus en plus complexes
Symboles :Remp: Erreur d’apprentissageRGen : Erreur en utilisation
ε fonction de n/h diminue avec nn= nombre d’enregistrementsh= Complexité du modèle
Complexité algorithme versus taille de l’échantillon d’apprentissage
Deep Learning
…
Gradient BoostingRandom Forest
…
Modèles Statistiques (régressions)
Algorithmes. Taille de l’échantillon d’apprentissage Complexité
L’over fitting (hélas souvent traduit par sur-apprentissage)
Intelligence Artificielle et DataSciencePlus de Big Data
Une énorme masse de données à capter et à analyser
Données structurées§ Numériques§ Non numériques (catégorielles)Données non-structurées§ Texte libre§ Images§ Son (voix), audio§ Vidéo§ Logs d’objets connectés§ Etc …Données internesDonnées externesPlus vite ….
Les problèmes posés par le Big Data
Lorsque la taille des bases tends vers l’infini :• Nécessité de remplacer les algorithmes classiques par des
algorithmes spécialisés Big DataBig Data veut aussi souvent dire Big « Missing » Data§ Nécessité d’utiliser des algorithmes pour résoudre certains
cas de données manquantesLes algorithmes se font In Database ou In Memory§ Hadoop travaille « In DataBase »§ Spark travaille « In Memory »Utilisation de CPU ou de GPUPas de déplacement de données massifsPas de temps réel sur des traitements massifs !
Intelligence Artificielle et DataScienceNouvelles méthodes de travail
L’approche Métier – Data - Métier
18/04/2018Le RDV DataScience
La méthode double CRISP
Moins d’expérimentation, plus de production§ Utilisation de la méthode CRISP étendue§ Industrialisation du Data Set dès le départFonctionnement DataScience dans le Cloud§ Les offres Cloud sont désormais « matures »Plus d’automatisation§ Utilisation de l’I.A. comme aboutissement de la
Data ScienceLes nouveaux algorithmes sont prédictifs !§ Faire de l’explicatif en parallèleIndustrialisation de la Data Preparation le plus tôt possibleCommencer le plus simple possible
Nouvelles méthodes de travail
Collecte des données
Nettoyage
Traitement des données
manquantes
Traitement des outliers
Correction des distributions
Transformation
Intelligence Artificielle et DataScienceNouvelles compétences
Constituer les équipes avec le bon casting
Statistiques
Machine Learning
Programmation
Système
Architecture
Administration
Modélisation
DataViz
Storytelling
Méthodologie
ETL
I.A.
18/04/2018Le RDV DataScience
4 niveaux de Data Scientist / Data Engineer :• Junior• Confirmé• Senior• Expert
La compétence Data Engineer est une vraie spécialisation• Le Binôme Data Engineer / Data Scientist marche bien
Les Jalons clés de la montée en compétence des Data Scientists1. Maitrise des outils, des bases de données de l’infrastructure, de la programmation2. Maitrise du recodage et du Data Management sur un gros volume de données3. Maitrise des lois Statistiques de base (Corrélations, Student, Fisher, analyses descriptives)4. Maitrise des algorithmes Statistiques prédictifs5. Maitrise des algorithmes Machine Learning6. Maitrise de l’interprétation des résultats7. Maitrise des choix méthodologiques en fonction des données et des Use Case8. Maitrise de la restitution des résultats vers les métier
Montée en compétence des Data Scientists
Data Scientist Junior
Data Scientist confirmé
Data Scientist Senior
Data Scientist Expert
Les offres DataScience et I.A. de Business & Decision
18/04/2018Le RDV DataScience
Les offres DataScience et I.A. de Business & Decision
18/04/2018Le RDV DataScience
DataScience4Business DataScience4Finance
Business & Decision a développé 4 offres packagées pour la DataScience
§ Connaissance Client§ E-Commerce§ Grande distribution§ Commerce de détail, Pharmacies§ Réseaux de Franchisés§ Clic & Mortar, Magasins§ B2B
§ Gestion des risques§ Lutte contre la fraude§ Gestion de portefeuilles§ Actuariat
DataScience4Manufacturing Indus4dataScience
Business & Decision a développé 4 offres packagées pour la DataScience
§ Maintenance prédictive§ Détection et prévention de pannes§ Optimisation de rendement§ Analyse de données, IoT
§ Transformation de POC en projets§ Industrialisation des POC
– POC B&D– POC faits en interne
Pour garder le contact
18/04/2018Le RDV DataScience
06.80 96 68 90 01 56 21 22 79
Directeur Data Science
Didier Gaultier
@didier_gaultier
Souvenirs à emporter
Livre blanc « Du Big Data au Big Busine$$ »
http://businessdecision.fr/livreblanc-bd
Blog Big Data & Digitalhttp://blog.businessdecision.com