Upload
herve-bourdon
View
50
Download
0
Embed Size (px)
Citation preview
— Shake '17, 11/05/17Dr Thomas Gerbaud
propulsé par OceanData.io
PLANTERSON PROJET
QUELQUES REGLES
SIMPLES
#DATA
“Big Data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it !”
— Dan Ariely, Duke University (2013)
Les BigData désignent des ensembles de données qui deviennent tellement volumineux qu'ils en sont difficiles à appréhender avec des outils classiques de gestion de base de données ou de gestion de l'information.
Mouvement global et englobant qui recouvre des réalités très diverses, et qui fait s’interpénétrer des mondes différents.
Mot-valise qui recouvre une réalité objective (==mesurable) et subjective (==trop de données). Il apparait quand la masse de données à traiter par les outils classiques devient problématique
Tech Bubble? Unicorn Bubble? #data Bubble?
Billion $ club
Uber: 68G$ AirBnB: 31G$ Slack: 3.8G$ SnapChat: 25G$
BMW: 53G$ GM: 52G$ Hilton: 25G$ Accor: 9G$Total: 111G€ GE: 278G$ Samsung: 196G$
Date: 27 Avril 2017
∑: 773 G$
Organiser le désordre ?
La #data ? Quatre types d’acteurs● ceux qui parlent;● ceux qui vendent;● ceux qui ont les besoins;● ceux qui ont les données.
… médias, boites de communication, boites de conseil & stratégie, startups, institutionnels
… éditeurs de software, d’infrastructure, de plateforme, profils techniques
… entreprises classiques… services publics… profils opérationnels
… possesseurs de bases de données historiques, d’informations uniques.
I. data IT, IT data⊂ ⊄
II. Over-engineering
III. Un data scientist n'est pas la solution
data IT, IT data⊂ ⊄
Un projet data doit passer par une phase où on ne sait pas ce que le programme va fournir comme résultats.
Un projet data doit inclure une base de données trop grosse pour être visualisée de manière exhaustive et, quelque part dans le code, des lignes du genre model.fit, model.predict et model.score.
Le reste n'est que littérature.
IT data, data IT⊂ ⊄
“Big data is not actually about the data. The revolution is not that there’s more data available. The revolution is that we know what to do with it now. That’s really the amazing thing.“
[...]
The revolution is not about the data. It’s about the analytics that we can come up with and that we now have to be able to understand what these data say.”
— Gary King, Harvard (2016)
“Les modèles et algorithmes deviennent l'infrastructure fondamentale pour la disruption digitale de l’économie tout entière, à la fois en tant qu’actifs stratégiques, en tant qu’infrastructure décisive.”
“Tout converge pour montrer le rôle décisif que jouent les technologies de modèles et algorithmes dans les bouleversements de l’économie actuelle.”
“Au sein de ces usages digitaux en rupture, l’actif technologique déterminant est l’algorithmique.”
– BPI France (2015)
Over-engineering
Over-engineering
Projet data== projet IT + data science.
● des maths compliquées;
● des statistiques balaises;
● des algorithmes écrits par des chercheurs;
● des bases de données;
● des performances.
Utiliser ces outils ? :
● la peinture autour des libraires n'est pas toujours fraîche;
● le risque de raconter n'importe quoi "parce que l'algorithme l'a dit" est grand;
● il faudra parler à des gens qui ont fait beaucoup trop de maths ou d'informatique pour être sains d'esprit.
Un data scientist n'est pas la solution
"Arguing with an engineer is like fighting a pig in mud. After the first few hours, you realise they enjoy it"?
Un data scientist est un scientifique.
Donc quelqu'un aime les problèmes techniques compliqués et qui voudra les résoudre.
Comment les arrêter sans les frustrer?
Comment obtenir des solutions perfectibles, temporaires, et fonctionnelles ?
Un data scientist n'est pas la solution“I keep saying the sexy job in the next ten years will be statisticians. People think I’m joking, but who would’ve guessed that computer engineers would’ve been the sexy job of the 1990s?”
— Hal Varian, Chief economist,Google (2009)
— Shake '17, 11/05/17
PLANTERSON PROJET
QUELQUES REGLES
SIMPLES
#DATA
Thomas Gerbaud, Ph.D http://[email protected]
Les GAFA ...
1480 G$ CAC 402875 G$ EURO STOXX 50
∑: 468G$ ∑: 2200+ G$ ∑: 469k
Google (Alphabet Inc.)Larry Page, Sergey Brin – 1996CA: 90G$ cap: 608 G$ empl: 70k
Mountain View, CA, USA
Apple Inc.Steve Jobs et al (Tim Cook) – 1976CA: 215G$ cap: 749 G$ empl: 115k
Cupertino, CA, USA
FacebookMark Zuckerberg et al – 2004CA: 27G$ cap: 424 G$ empl: 15k
Menlo Park, CA, USA
AmazonJeff Bezos – 1994CA: 136G$ cap: 435 G$ empl: 269k
Seattle, Washington, USA
Date: 27 Avril 2017
Blockchain & Bitcoin
Blockchain1. You do not talk about Bitcoin 2. You do not talk about Bitcoin3. It is a fully distributed database with no central authority4. Instant, global transactional capability.5. Control is enforced by quite strong cryptography.. 6. Very strong potential for disruption
Apprentissage … … supervisé
Mots de mathématiciens
Comment prendre des décisions adaptées,personnalisées et sur-mesure ?
Comment représenter les données ? Quel point de vue adopter ? Comment extraire de la connaissance de grandes masses de données ?
Quelle connaissance extraire d’un ensemble de données, à partir d’un modèle de données ou de règles métiers ? L’humain guide la machine.
Quelle connaissance extraire d’un ensemble de données sans a priori ? La machine n’est pas guidée, les mathématiques agissent seules.
Comment structurer, extraire, découvrir ?
Que peut-on anticiper, à partir de données brutes ou de modèles de connaissances ? Avec quelle confiance ?
StatistiquesModélisation
Apprentissage …… non-supervisé
RecommendationProfilage
Data-mining
Prédiction
Mots d’informaticiensLangages Python/R/Scala + base de données + visualisations
+ outils spécialisés en machine learning et data processingIntrinsèquement du sur-mesure.
Design pattern destiné à faciliter la création d’applications distribuées (stockage/traitement) et échelonnables.
Google, 2004
Framework. Implémentation de MapReduce.HDFS, Hbase; Hive, Pig; MS Azure, Amazon EC2
Apache, 2008
~Hadoop travaillant en mémoire vive + plateforme incluant des outils d’analyse. Perfs x10-x100.
Berkeley (CA, USA)/Apache, 2014
not-only SQL : bases de données répondant à des besoins très spécifiques, dont la gestion de très grosses bases de données. Ex: MongoDB, Cassandra, Redis, ElasticSearch, CouchDB
Editeurs de plateforme de données basées sur Hadoop. Sociétés privées, 2008/2011
ClouderaHortonWorks
noSQL
Spark
Hadoop
MapReduce
● médiatique. omniprésence d'internet & réseaux sociaux● conceptuelle. client == user == data => valorisation● technologique. forte offre logicielle & plateformes
TROIS RUPTURES
Would it take a long time to make the story it short ?
La #data a d'abord été un problème purement technique pour les nouveaux acteurs du net (GAFA), qui ont du concevoir et bâtir des outils ad-hoc.
Ils en ont tiré une grande richesse commerciale et technique, qu'ils exploitent depuis comme une rente de situation. La puissance financière des GAFA devient dangereuse pour les acteurs classiques, qui, en réaction, se lancent dans la #data pour ne pas disparaitre. En découle un impératif stratégique d'exploitation des données.
En parallèle, les acteurs classiques disposant de beaucoup de données (bases ou flux) s'interrogent sur de possibles pivots.
La question à résoudre pour les acteurs classiques est de savoir où positionner le curseur entre, d'un côté, du business intelligence/analytics ou aide à la décision et, de l'autre, véritable mutation.