22

Click here to load reader

15 03 16_data sciences pour l'actuariat_f. soulie fogelman

Embed Size (px)

Citation preview

Page 1: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

Data Sciences pour l'Actuariat

Françoise Soulié Fogelman

Formation Actuaire Data Scientist

Leçon inaugurale

Paris, 16 mars 2015

Page 2: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

2F. Soulié Fogelman. Data Sciences pour l'Actuariat

Agenda

• Big Data & Assurance

• Le process du projet Big Data

• Data Science pour les actuaires

Page 3: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

Big Data & Assurance

Page 4: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

4F. Soulié Fogelman. Data Sciences pour l'Actuariat

Une définition classique

Introduite par Gartner en 2001Nombre de

variables

Nombre

d’événements /

seconde

Nombre d’observations

x Nombre de variables

Largeur

Profondeur

Page 5: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

5F. Soulié Fogelman. Data Sciences pour l'Actuariat

Les sources de données – Volume & Variété

http://vesselhead.com/hadoop-is-a-very-disruptive-technology

Page 6: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

6F. Soulié Fogelman. Data Sciences pour l'Actuariat

Le Big Data est possible aujourd’hui

1. Grâce aux améliorations exponentielles du hardware …

L’avènement du Big Data

http://radar.oreilly.com/2011/08/building-data-startups.html

Page 7: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

7F. Soulié Fogelman. Data Sciences pour l'Actuariat

L’avènement du Big Data

2. … et un marché d’outils logiciels Big Data très complet

http://www.slideshare.net/mjft01/big-data-

big-deal-a-big-data-101-presentation

Page 8: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

8F. Soulié Fogelman. Data Sciences pour l'Actuariat

Le Big Data dans l’Assurance

• Un potentiel de valeur

– Important & accessible

• McKinsey 2011

• … grâce à un métier basé sur l

– Des données

– & des compétences

– adaptées

• … mais nécessitant des évolutions significatives

– Ex: P&C

• Deloitte 2015

http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation

http://www2.deloitte.com/us/en/pages/financial-services/articles/2015-property-and-casualty-insurance-outlook.html

Page 9: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

9F. Soulié Fogelman. Data Sciences pour l'Actuariat

Quelques exemples d’applications dans l’assurance

• Améliorer le ciblage des campagnes marketing

– Développer les marchés de niche

• Produire de meilleurs modèles

– Prévision de sinistralité, de pricing, de détection de la fraude

• Développer les nouvelles plateformes de distribution

– Améliorer l’interaction client (NBA, temps réel)

• Concevoir de nouveaux produits

– Usage-based-insurance

• Connected xx (car, health, home)

– Risques climatiques

http://www.data-business.fr/opportunites-applications-big-

data-assurance/ http://www.lesechos.fr/idees-debats/sciences-prospective/0204190147952-pourquoi-les-

objets-connectes-font-rever-les-compagnies-dassurances-1098284.php

Page 10: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

Le process du projet

Big Data

Page 11: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

11F. Soulié Fogelman. Data Sciences pour l'Actuariat

Le process du projet Big Data

• Les étapes sont familières aux actuaires

• Mais avec quelques grosses différences

– La génération de features (variables)

– L’approche Machine Learning

– La construction du modèle

– L’utilisation d’infrastructures différentes (Hadoop, Spark)

– La programmation en plus des statistiques

Collecte de

données

Préparation

des données

Feature

engineering

Construction

du modèleEvaluation Déploiement

Page 12: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

12F. Soulié Fogelman. Data Sciences pour l'Actuariat

La génération de features

• Augmenter la variété

– Calculer, à partir des variables existantes, de nouvelles variables

• Significatives pour le métier mais difficiles à apprendre par un modèle

– Difficile : coûteux en données, temps de calcul, complexité du modèle

• Exemples : ratios, agrégats sur fenêtres glissantes temporelles,

géographiques…

– Obtenir des variables supplémentaires de sources externes

• Open data, partenaires, data providers

– La variété augmente (et donc le volume)

• Plus les sources sont différentes, mieux c’est

• Différentes en sémantique/type (texte, réseau…)

• C’est le facteur de succès le plus important

– Cela permet de produire des modèles plus simples & plus performants Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf

Page 13: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

13F. Soulié Fogelman. Data Sciences pour l'Actuariat

La génération de features

• Attention: quand le nombre de features augmente

– Le nombre d’observations nécessaires pour apprendre le modèle

augmente

– Le temps de calcul augmente aussi

Bottou : http://bigdata2013.sciencesconf.org/conference/bigdata2013/pages/bottou.pdf

Page 14: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

14F. Soulié Fogelman. Data Sciences pour l'Actuariat

L’approche Machine Learning

• Construire un modèle

– L’ensemble d’apprentissage: le modèle apprend (précision)

– L’ensemble de validation : le modèle généralise (robustesse)

• Le modèle doit être simple

Facile

Difficile

Page 15: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

15F. Soulié Fogelman. Data Sciences pour l'Actuariat

La construction du modèle

• Il existe de très nombreux algorithmes de Machine Learning

– Il vaut toujours mieux choisir un algorithme simple

• “Invariably, simple models and a lot of data trump more elaborate models

based on less data”

• Il vaut mieux passer du temps sur la génération de variables

• Note : les variables générées sont toujours corrélées– L’algorithme choisi doit dont être insensible aux corrélations

• Questions importantes– Scalabilité, Explicabilité, Performance

– Résistance au bruit / données manquantes (sparsité) / données

corrélées

– Temps de calcul : Apprentissage / Scoring (généralisation)

– Le plus important : les données• Les données ne sont pas produites pour les besoins de l’analyste

– Problèmes de représentativité

Page 16: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

16F. Soulié Fogelman. Data Sciences pour l'Actuariat

L’utilisation d’infrastructures différentes

• La plate-forme Big Data

– Couche Analyses

• Librairies open-source Scikit-learn; MLlib

– Couche données : bases NoSQL

– Infrastructure

• Serveur In-memory

• Cluster hadoop/Spark

• Importance de la

sécurité / privacy /

protection des

données personnelles

Page 17: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

17F. Soulié Fogelman. Data Sciences pour l'Actuariat

La programmation

• La programmation est très massivement nécessaire

pour les étapes de préparation des données (80% du

temps passé dans un projet)

– La collecte des données

– Le nettoyage des données

– L’alignement des référentiels

– Le feature engineering

• Souvent en R ou en Python

“First-timers are often surprised by how little time in a machine

learning project is spent actually doing machine learning”Domingos: http://www.centurion.link/w/_media/programming/a_few_useful_things_to_know_about_machine_learning.pdf

Page 18: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

Data Science pour les

actuaires

Page 19: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

19F. Soulié Fogelman. Data Sciences pour l'Actuariat

Le data scientist

• Ces compétences sont très demandées

Page 20: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

20F. Soulié Fogelman. Data Sciences pour l'Actuariat

Le data scientist

• Les compétences requises

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Page 21: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

21F. Soulié Fogelman. Data Sciences pour l'Actuariat

Le data scientist

• Le but de cette formation

– Appui sur l’expertise métier

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

Page 22: 15 03 16_data sciences pour l'actuariat_f. soulie fogelman

22F. Soulié Fogelman. Data Sciences pour l'Actuariat

Le data scientist

“People rarely succeed

unless they have fun in what they are doing”

Dale Carnegie

&

à [email protected]