Data Science et Intelligence Artificielle IA et ... Data Science et Intelligence Artificielle IA et DataScience dans le cloud Etat de l’art. Votre animateur [email protected]

Data Science et Intelligence ArtificielleIA et DataScience dans le cloudEtat de l’art

Votre animateur

[email protected]

06.80 96 68 90 01 56 21 22 79

Directeur Data Science Groupe

Didier Gaultier

@didier_gaultier

Le RDV DataScience

600Projets

2.400Talents

11Pays

212 M€CA 2017

Expert en data depuis 1992

Business & Décision

c’est la DATA et le DIGITAL

Quelques faits d’armes de nos Data Scientists

18/04/2018Le RDV DataScience

Intelligence Artificielle et DataScienceEvolution ou révolution ?

8

Aut

omat

isat

ion

Exemples d’applications

L’I.A. et l’industrialisation sont l’aboutissement de la DataScience

I.A.

Machine Learning

Analyse prédictive

Analyse statistiqueet Inférentielle

Statistique générale

Préparation et recodage des données

Segmentation des clients par fréquence d’achat

> 6 mois / 6 -12 mois / < 12 mois

KPI : 58% de nos clients ont effectués un achats sur les 6 derniers

mois

Expliquer : Identifier les critères discriminants, classification des

clients par comportement

Prédiction des clients qui vont partir à la concurrence dans les 6 mois

Apprentissage automatisé sur des comportements d’achat

ChatBot d’un conseiller clientèle Frontière floue entre les

domaines

Le RDV DataScience

La DataScience : un scope de plus en plus large

Le scope des activités de Data Science s’élargit de plus en plus

Analyse exploratoire

Analyse descriptive et

qualité des données

Data PréparationAnalyse

Inférentielle et prédictive

Analyse explicative et

causale

Machine learning auto

apprenant

Intelligence artificielle mono et multi agents

Industrialisation de modèles

Calculs temps réel

Qu’est-ce que l’IA

Ref : Artificial intelligence : a modern approach/ Stuart Russell, Peter Norvig

Ce qui peut également s’illustrer comme suit

La DataScience est bâtie suivant un bio-mimétisme avec l’humain

MémoireStockage, nettoyage, organisation et croisement des données

RaisonnementExploitation des données pour leur

apporter de l’intelligence

Conscience Ethique dans l’utilisation des donnéesGouvernance et organisation pour un

bon usage dans l’entreprise

RécolteDigitalisation des informations

Action Industrialisation, automatisation

Action via des actionneurs


Intelligence Artificielle et DataScience.Cas d’usage

• Contexte :• Ouverture des marchés Européens• 75 000 facteurs, 40 Millions de plis par jour, 14 Milliards de plis chaque année• 120 Millions de transactions par jour• Besoin d’optimiser les tournées des facteurs• Enjeux financiers et humains forts

Attente du Client : Optimiser le passage des facteurs en fonction des engagementscontractuels et de la fréquence de réception de plis urgents

Notre réponse & résultats : Accompagnement sur le typage des points de distribution (PDI), puis optimisation de la distribution du courrier par type de PDI

• Mise en place d’une équipe mixte Data Scientists, Data Engineers • Constitution d’un Dataset dédié ( base de plus de 100 To)• Création d’une typologie des points de distribution du courrier (PDI)• Elaboration d’un modèle d’optimisation de la distribution par type de PDI• Test du modèle sur le département du 77 puis industrialisation • Déploiement en collaboration avec la DSI France sur 1000 centres de tri en 2017• Déploiement sur 1300 centres supplémentaires d’ici 2018

OPTIMISATION DE LA DISTRIBUTION DU COURRIER PAR TYPOLOGIE DE POINTS DE DISTRIBUTION ET RECOMMANDATION

Intelligence Artificielle et DataScienceAlgorithmes d’apprentissage et I.A.

Evolution et différents types d’ I.A.

Interaction de l’agent avec son environnement


Etat sRécompense R Action a

Comparaison avec l’action de dresser un chien


La notion de récompense


L’apprentissage est plus simple pour un robot


Le principe même de l’apprentissage suppose l’échec

Le RDV DataScience 18/04/2018

Les 4 types d’apprentissages (du plus simple au plus complexe)

Non supervisé Supervisé Renforcé Profond(Unsupervised) (Supervised) (reinforcement) (deep)

Exemples d’applications :

Text Mining Analyse de sentiment Robot de nettoyage Voiture autonomeTypologies Classifications Next Best Offer Reconnaissance

d’images

Fonctionnement de l’apprentissage non supervisé

Modèle

Exemple d’application : Segmentation des clients, analyse des caractéristiques d’un point de vente


Variables explicatives

X1X2X3…Xi…Xp

Nouveaux indicateurs

Y1Y2Y3…Yi…Yq

Fonctionnement de l’apprentissage supervisé

Population totale des clients :Rapport de satisfaction

Echantillon dit d’apprentissage

Utilisation de la prédiction sur la population complète de clients

Modélisation des causes d’insatisfaction sur l’échantillon

Extension à la population complète des clients

On suppose que l’on connait les causes d’insatisfaction sur un échantillon de clients


Apprentissage supervisé


X1X2X3…Xi…Xp

Variable à prédire

Y


Modèle

Apprentissage renforcé


Exemple : moteur de recommandation produit


X1X2X3…Xi…Xp

Prédiction

YModèle Estimation de l’écart

Rétro propagation (rétroaction)

Injection de la valeur du résultat Y obtenu réellement (soit en valeur, soit en résultat)

Ecart

Video Demo d’un “Crawler Bot” utilisant l’apprentissage renforcé

Son but :Avancer vers la droiteAvec seulement 2 articulations

On assiste à une complexification des algorithmes :§ Bootstrapping§ Bagging§ Boosting§ Deep LearningL’amélioration de la complexité à un prix : il faut (parfois considérablement) augmenter la taille de l’échantillon d’apprentissageChercher un compromis Robustesse/Précision/Complexité

Des algorithmes de plus en plus complexes

Symboles :Remp: Erreur d’apprentissageRGen : Erreur en utilisation

ε fonction de n/h diminue avec nn= nombre d’enregistrementsh= Complexité du modèle

Complexité algorithme versus taille de l’échantillon d’apprentissage

Deep Learning

…

Gradient BoostingRandom Forest

…

Modèles Statistiques (régressions)

Algorithmes. Taille de l’échantillon d’apprentissage Complexité

L’over fitting (hélas souvent traduit par sur-apprentissage)

Intelligence Artificielle et DataSciencePlus de Big Data

Une énorme masse de données à capter et à analyser

Données structurées§ Numériques§ Non numériques (catégorielles)Données non-structurées§ Texte libre§ Images§ Son (voix), audio§ Vidéo§ Logs d’objets connectés§ Etc …Données internesDonnées externesPlus vite ….

Les problèmes posés par le Big Data

Lorsque la taille des bases tends vers l’infini :• Nécessité de remplacer les algorithmes classiques par des

algorithmes spécialisés Big DataBig Data veut aussi souvent dire Big « Missing » Data§ Nécessité d’utiliser des algorithmes pour résoudre certains

cas de données manquantesLes algorithmes se font In Database ou In Memory§ Hadoop travaille « In DataBase »§ Spark travaille « In Memory »Utilisation de CPU ou de GPUPas de déplacement de données massifsPas de temps réel sur des traitements massifs !

Intelligence Artificielle et DataScienceNouvelles méthodes de travail

L’approche Métier – Data - Métier


La méthode double CRISP

Moins d’expérimentation, plus de production§ Utilisation de la méthode CRISP étendue§ Industrialisation du Data Set dès le départFonctionnement DataScience dans le Cloud§ Les offres Cloud sont désormais « matures »Plus d’automatisation§ Utilisation de l’I.A. comme aboutissement de la

Data ScienceLes nouveaux algorithmes sont prédictifs !§ Faire de l’explicatif en parallèleIndustrialisation de la Data Preparation le plus tôt possibleCommencer le plus simple possible

Nouvelles méthodes de travail

Collecte des données

Nettoyage

Traitement des données

manquantes

Traitement des outliers

Correction des distributions

Transformation

Intelligence Artificielle et DataScienceNouvelles compétences

Constituer les équipes avec le bon casting

Statistiques

Machine Learning

Programmation

Système

Architecture

Administration

Modélisation

DataViz

Storytelling

Méthodologie

ETL

I.A.


4 niveaux de Data Scientist / Data Engineer :• Junior• Confirmé• Senior• Expert

La compétence Data Engineer est une vraie spécialisation• Le Binôme Data Engineer / Data Scientist marche bien

Les Jalons clés de la montée en compétence des Data Scientists1. Maitrise des outils, des bases de données de l’infrastructure, de la programmation2. Maitrise du recodage et du Data Management sur un gros volume de données3. Maitrise des lois Statistiques de base (Corrélations, Student, Fisher, analyses descriptives)4. Maitrise des algorithmes Statistiques prédictifs5. Maitrise des algorithmes Machine Learning6. Maitrise de l’interprétation des résultats7. Maitrise des choix méthodologiques en fonction des données et des Use Case8. Maitrise de la restitution des résultats vers les métier

Montée en compétence des Data Scientists

Data Scientist Junior

Data Scientist confirmé

Data Scientist Senior

Data Scientist Expert

Les offres DataScience et I.A. de Business & Decision


Les offres DataScience et I.A. de Business & Decision


DataScience4Business DataScience4Finance

Business & Decision a développé 4 offres packagées pour la DataScience

§ Connaissance Client§ E-Commerce§ Grande distribution§ Commerce de détail, Pharmacies§ Réseaux de Franchisés§ Clic & Mortar, Magasins§ B2B

§ Gestion des risques§ Lutte contre la fraude§ Gestion de portefeuilles§ Actuariat

DataScience4Manufacturing Indus4dataScience

Business & Decision a développé 4 offres packagées pour la DataScience

§ Maintenance prédictive§ Détection et prévention de pannes§ Optimisation de rendement§ Analyse de données, IoT

§ Transformation de POC en projets§ Industrialisation des POC

– POC B&D– POC faits en interne

Pour garder le contact


[email protected]

06.80 96 68 90 01 56 21 22 79

Directeur Data Science

Didier Gaultier

@didier_gaultier

Souvenirs à emporter

Livre blanc « Du Big Data au Big Busine$$ »

http://businessdecision.fr/livreblanc-bd

Blog Big Data & Digitalhttp://blog.businessdecision.com

Documents

Data Science et Intelligence Artificielle IA et ... Data Science et Intelligence Artificielle IA et DataScience dans le cloud Etat de l’art. Votre animateur [email protected]