19
— Shake '17, 11/05/17 Dr Thomas Gerbaud propulsé par OceanData.io PLANTER SON PROJET QUELQUES REGLES SIMPLES #DATA “Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it !” — Dan Ariely, Duke University (2013)

Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Embed Size (px)

Citation preview

Page 1: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

— Shake '17, 11/05/17Dr Thomas Gerbaud

propulsé par OceanData.io

PLANTERSON PROJET

QUELQUES REGLES

SIMPLES

#DATA

“Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it !”

— Dan Ariely, Duke University (2013)

Page 2: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Les BigData désignent des ensembles de données qui deviennent tellement volumineux qu'ils en sont difficiles à appréhender avec des outils classiques de gestion de base de données ou de gestion de l'information.

Page 3: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Mouvement global et englobant qui recouvre des réalités très diverses, et qui fait s’interpénétrer des mondes différents.

Mot-valise qui recouvre une réalité objective (==mesurable) et subjective (==trop de données). Il apparait quand la masse de données à traiter par les outils classiques devient problématique

Page 4: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io
Page 5: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Tech Bubble? Unicorn Bubble? #data Bubble?

Billion $ club

Uber: 68G$ AirBnB: 31G$ Slack: 3.8G$ SnapChat: 25G$

BMW: 53G$ GM: 52G$ Hilton: 25G$ Accor: 9G$Total: 111G€ GE: 278G$ Samsung: 196G$

Date: 27 Avril 2017

∑: 773 G$

Page 6: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Organiser le désordre ?

La #data ? Quatre types d’acteurs● ceux qui parlent;● ceux qui vendent;● ceux qui ont les besoins;● ceux qui ont les données.

… médias, boites de communication, boites de conseil & stratégie, startups, institutionnels

… éditeurs de software, d’infrastructure, de plateforme, profils techniques

… entreprises classiques… services publics… profils opérationnels

… possesseurs de bases de données historiques, d’informations uniques.

Page 7: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

I. data IT, IT data⊂ ⊄

II. Over-engineering

III. Un data scientist n'est pas la solution

Page 8: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

data IT, IT data⊂ ⊄

Un projet data doit passer par une phase où on ne sait pas ce que le programme va fournir comme résultats.

Un projet data doit inclure une base de données trop grosse pour être visualisée de manière exhaustive et, quelque part dans le code, des lignes du genre model.fit, model.predict et model.score.

Le reste n'est que littérature.

Page 9: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

IT data, data IT⊂ ⊄

“Big data is not actually about the data. The revolution is not that there’s more data available. The revolution is that we know what to do with it now. That’s really the amazing thing.“

[...]

The revolution is not about the data. It’s about the analytics that we can come up with and that we now have to be able to understand what these data say.”

— Gary King, Harvard (2016)

Page 10: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

“Les modèles et algorithmes deviennent l'infrastructure fondamentale pour la disruption digitale de l’économie tout entière, à la fois en tant qu’actifs stratégiques, en tant qu’infrastructure décisive.”

“Tout converge pour montrer le rôle décisif que jouent les technologies de modèles et algorithmes dans les bouleversements de l’économie actuelle.”

“Au sein de ces usages digitaux en rupture, l’actif technologique déterminant est l’algorithmique.”

– BPI France (2015)

Over-engineering

Page 11: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Over-engineering

Projet data== projet IT + data science.

● des maths compliquées;

● des statistiques balaises;

● des algorithmes écrits par des chercheurs;

● des bases de données;

● des performances.

Utiliser ces outils ? :

● la peinture autour des libraires n'est pas toujours fraîche;

● le risque de raconter n'importe quoi "parce que l'algorithme l'a dit" est grand;

● il faudra parler à des gens qui ont fait beaucoup trop de maths ou d'informatique pour être sains d'esprit.

Page 12: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Un data scientist n'est pas la solution

"Arguing with an engineer is like fighting a pig in mud. After the first few hours, you realise they enjoy it"?

Un data scientist est un scientifique.

Donc quelqu'un aime les problèmes techniques compliqués et qui voudra les résoudre.

Comment les arrêter sans les frustrer?

Comment obtenir des solutions perfectibles, temporaires, et fonctionnelles ?

Page 13: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Un data scientist n'est pas la solution“I keep saying the sexy job in the next ten years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?”

— Hal Varian, Chief economist,Google (2009)

Page 14: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

— Shake '17, 11/05/17

PLANTERSON PROJET

QUELQUES REGLES

SIMPLES

#DATA

Thomas Gerbaud, Ph.D http://[email protected]

Page 15: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Les GAFA ...

1480 G$ CAC 402875 G$ EURO STOXX 50

∑: 468G$ ∑: 2200+ G$ ∑: 469k

Google (Alphabet Inc.)Larry Page, Sergey Brin – 1996CA: 90G$ cap: 608 G$ empl: 70k

Mountain View, CA, USA

Apple Inc.Steve Jobs et al (Tim Cook) – 1976CA: 215G$ cap: 749 G$ empl: 115k

Cupertino, CA, USA

FacebookMark Zuckerberg et al – 2004CA: 27G$ cap: 424 G$ empl: 15k

Menlo Park, CA, USA

AmazonJeff Bezos – 1994CA: 136G$ cap: 435 G$ empl: 269k

Seattle, Washington, USA

Date: 27 Avril 2017

Page 16: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Blockchain & Bitcoin

Blockchain1. You do not talk about Bitcoin 2. You do not talk about Bitcoin3. It is a fully distributed database with no central authority4. Instant, global transactional capability.5. Control is enforced by quite strong cryptography.. 6. Very strong potential for disruption

Page 17: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Apprentissage … … supervisé

Mots de mathématiciens

Comment prendre des décisions adaptées,personnalisées et sur-mesure ?

Comment représenter les données ? Quel point de vue adopter ? Comment extraire de la connaissance de grandes masses de données ?

Quelle connaissance extraire d’un ensemble de données, à partir d’un modèle de données ou de règles métiers ? L’humain guide la machine.

Quelle connaissance extraire d’un ensemble de données sans a priori ? La machine n’est pas guidée, les mathématiques agissent seules.

Comment structurer, extraire, découvrir ?

Que peut-on anticiper, à partir de données brutes ou de modèles de connaissances ? Avec quelle confiance ?

StatistiquesModélisation

Apprentissage …… non-supervisé

RecommendationProfilage

Data-mining

Prédiction

Page 18: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

Mots d’informaticiensLangages Python/R/Scala + base de données + visualisations

+ outils spécialisés en machine learning et data processingIntrinsèquement du sur-mesure.

Design pattern destiné à faciliter la création d’applications distribuées (stockage/traitement) et échelonnables.

Google, 2004

Framework. Implémentation de MapReduce.HDFS, Hbase; Hive, Pig; MS Azure, Amazon EC2

Apache, 2008

~Hadoop travaillant en mémoire vive + plateforme incluant des outils d’analyse. Perfs x10-x100.

Berkeley (CA, USA)/Apache, 2014

not-only SQL : bases de données répondant à des besoins très spécifiques, dont la gestion de très grosses bases de données. Ex: MongoDB, Cassandra, Redis, ElasticSearch, CouchDB

Editeurs de plateforme de données basées sur Hadoop. Sociétés privées, 2008/2011

ClouderaHortonWorks

noSQL

Spark

Hadoop

MapReduce

Page 19: Comment planter son projet data ? Par Thomas GERBAUD PhD OceanData.io

● médiatique. omniprésence d'internet & réseaux sociaux● conceptuelle. client == user == data => valorisation● technologique. forte offre logicielle & plateformes

TROIS RUPTURES

Would it take a long time to make the story it short ?

La #data a d'abord été un problème purement technique pour les nouveaux acteurs du net (GAFA), qui ont du concevoir et bâtir des outils ad-hoc.

Ils en ont tiré une grande richesse commerciale et technique, qu'ils exploitent depuis comme une rente de situation. La puissance financière des GAFA devient dangereuse pour les acteurs classiques, qui, en réaction, se lancent dans la #data pour ne pas disparaitre. En découle un impératif stratégique d'exploitation des données.

En parallèle, les acteurs classiques disposant de beaucoup de données (bases ou flux) s'interrogent sur de possibles pivots.

La question à résoudre pour les acteurs classiques est de savoir où positionner le curseur entre, d'un côté, du business intelligence/analytics ou aide à la décision et, de l'autre, véritable mutation.