Upload
lambao
View
214
Download
0
Embed Size (px)
Citation preview
Page 1 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Introduction
Pour ses 10 ans LeMagIT vous propose de revenir en 10 éditions
spéciales Premium au format PDF sur 10 concepts clés nés –
pour ce qui concerne l’informatique d’entreprise – en même
temps que nous et qui se sont depuis largement imposés, jusqu’à
même être devenus incontournables.
Ce premier numéro spécial revient sur le Big Data. Au départ très
lié aux problématiques propres aux moteurs de recherche,
l’intérêt pour les grosses masses de données a très vite
concerné l’ensemble du secteur avant de prendre un nom
marketing et de finalement s’imposer comme un élément majeur
de l’informatique actuelle.
Découvrez comment le Big Data a décollé à travers une trentaine
d’articles.
Page 2 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2010 : pas encore de Big Data mais déjà Hadoop
Data Management : le doux vent de la rentrée souffle sur Hadoop
Cyrille Chausson, Rédacteur en Chef
La rentrée aura été particulièrement animée pour le framework Open
Source Java de la fondation Apache. Conçu pour le développement de
systèmes de fichiers distribués et étendus, et ainsi pour gérer une
importante volumétrie de données, Hadoop commence sérieusement à
intéresser le monde du Data management et de la Business Intelligence.
Il faut dire que le framework Open Source avait fortement profité des
alizées du Cloud Computing, soutenu par des ténors du secteur que sont
Yahoo, Facebook et Google. Ces éditeurs ont livré à l'Open Source une
déclinaison de leur technologie maison reposant sur Hadoop, alimentant
ainsi la communauté en innovation sur un socle déjà prometteur. IBM avait
également apporté sa pierre à l'édifice en mai dernier, avant la trêve estivale,
en décidant de placer la solution au coeur d'une offre de services
analytiques - baptisée Infosphere Big Insight. Citons enfin Pentaho qui, en
mai 2010, a décidé d'adapter ses technologies pour recevoir le framework. A
l'époque, l'idée était de fournir un environnement pour faciliter le
Page 3 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
développement d'applications d'analyse de gros volumes de données,
collectées dans les entreprises. S'en suivit Pentaho for Hadoop.
Conséquences directes : ces déploiements et autres apports
technologiques de la part de seigneurs de l'IT ont davantage taillé Hadoop
aux besoins spécifiques des entreprises.
Et cette tendance s'est poursuivie à la rentrée. Le 1er novembre dernier, par
exemple, Informatica, l'un des fleurons du data management, annonçait une
alliance avec Cloudera, une société qui commercialise du support autour de
Hadoop. A la clé, l'intégration du framework Java supporté par Cloudera
(Cloudera Distribution for Hadoop) dans la plate-forme de BI d'Informatica.
Un combinaison gagnante selon l'éditeur qui permettra aux utilisateurs
d'exploiter les outils d'Informatica pour analyser les données -
transactionnelles et non structurées - stockées par Hadoop.
Le spécialiste de l'entrepôt de données Teradata avait à son tour décidé en
septembre 2010 de s'associer à Cloudera pour rapprocher ses technologies
d'Hadoop, comme l'indiquaient à l'époque la société Octo, sur son blog. Le
12 octobre dernier, ce fut au tour de Talend qui annonçait nouer un
partenariat avec cette même société pour rapprocher Hadoop de ses
technologies d'intégration de données et de MDM.
Autant de soutiens et d'alliances qui donnent à Hadoop un petit embonpoint
avant l'hiver, et attirent le regard. Il n'est dès lors pas étonnant que Cloudera
- qui est le maillon commun à la plupart des alliances citées ci-dessus -
Page 4 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
monte également d'un cran. Cette société, lancée en 2008, a construit toute
son offre sur Hadoop et propose Cloudera Enterprise, une version validée et
certifiée de Hadoop à laquelle la société associe une offre de support de
classe entreprise. Le 26 octobre dernier, la société annonçait avoir levé 25
millions de dollars supplémentaires à l'occasion d'un troisième tour de table,
auprès des fonds d'investissements Meritech Capital Partners, Accel
Partners et Greylock Partners - ces deux derniers étant les investisseurs
historiques. Depuis sa création, Cloudera a levé 36 millions de dollars. Elle
emploie aujourd'hui 40 personnes.
Page 5 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2011 : le Big Bang du Big Data
Etat du monde IT : le Big Data, une offre qui se forme
Cyrille Chausson, Rédacteur en Chef
Big Data, analytique, décisionnel, BI, analyse prédictive...en 2011, le
traitement et l'analyse des données en volume auront été sur les lèvres de
nombreux acteurs de la sphère IT. Les éditeurs, bien sûr qui voyant croitre la
masse de données produites par les entreprises ont décidé de se ranger
derrière ce nouvel étendard du Big Data afin de pousser intelligemment des
offres technologiques, plus ou moins adéquates, mais également les
entreprises, qui d'une façon pragmatiqus, doivent aujourd'hui composer avec
des données qui jusqu'alors n'avaient que peu pénétrer le périmètre du SI :
les données non structurées.
Pourquoi . Car outre la généralisation du Cloud Computing, 2011 aura
également été témoin de la montée en puissance d'un autre concept : celui
de la consumérisation de l'IT, ou du concept de BYOD (Bring your Own
Device). Un concept qui propulse à l'intérieur des environnements
professionnels des données provenant d'environnements particuliers,
notamment de la mobilité, des réseaux sociaux, des plates-formes vidéos,
Page 6 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
etc...Un appel d'air de données donc, mais de données nouvelles qui ne
remplissent pas les conditions très formalisées des bases de données.
L'heure est donc à leur prise en compte. Et c'est désormais sur ce terrain
que le Big Data s'installe. Le Gartner a par exemple inclus le concept dans
son traditionnel Hype Cycle 2011 et l'a classé parmi les 10 technologies
stratégiques pour 2012. Il est donc logique que le marché se mette en place.
Et c'est principalement ce qui aura marqué 2011.
Hadoop : l'éco-système des pure-players explose
Au départ fut Cloudera et Datameer. L'éco-système commercial d'Hadoop
au début 2011 était essentiellement composé de start-up qui, sentant le vent
du Big Data et de l'intérêt de l'Open Source dans ce secteur - celui du
traitement des données non structurées - ont basé leur modèle économique
sur une déclinaison commercial de Hadoop. Mais très vite, le marché attira
d'autres acteurs : si on connaissait l'implication de Yahoo dans la
communauté du framework Open Source de la fondation Apache, on ne lui
prêtait assez peu d'ambition commerciale en la matière. Pourtant le portail a
décidé bel et bien en 2011 de créer une division Hadoop, baptisée
Hortonworks qui allait venir donner le change aux start-up en place. Et cette
création représente un signal clair pour le marché. Car outre la
concrétisation de l'implication de Yahoo dans Hadoop, HortonWorks est
également né du soutien du fond d'investissement américain Benchmark
Page 7 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Capital. Preuve que derrière Hadoop, il y a une logique financière dans le Big
Data. Dans cette même idée, on se rappelle également l'intérêt des business
Angels de Kleiner Perkins dans Datameer.
Enfin, autre signe de l'intérêt commercial d'Hadoop, l'arrivée d'EMC sur ce
segment, qui profite du rachat du spécialiste du data warehouse Greenplum
en 2010, désormais la division base de données et business Intelligence du
géant, pour lancer en 2011 sa propre déclinaison Hadoop.
Hadoop : les gros du secteur y passent
Comme une reconnaissance du marché, en 2011, Hadoop a également attiré
les ténors de l'industrie IT qui ont placé ce framework au coeur de leur offre
de traitement des données en volume. Une des raisons invoquées : son coût
principalement, nous rappelait James Markarian, vice-président exécutif et
directeur technique d'Informatica confirmant ainsi que le framework
«contribuait à modifier le modèle économique du Big Data". Ajoutant que sa
flexibilité - Open Source oblige - était aussi un critère d'adoption. On
comprend alors mieux les éditeurs, comme Informatica, qui ont décidé
d'ajouter le support Hadoop à leur pile Big Data. Talend, Oracle, Teradata,
IBM, Sybase, EMC (via Greenplum) et IBM, pour ne citer qu'eux. Sans oublier
Microsoft, qui à la surprise générale, convoqua Hadoop en pleine
conférence sur SQL Server pour annoncer au monde entier le
développement - en collaboration avec Hortonworks - de versions du
framework pour Windows Server et bien sûr Azure.
Page 8 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Big Data et analytique : on pose ses jalons
Si, en matière de Big Data, 2010 avait été témoin de rachats d'envergure, à
l'image de Netezza pour IBM ou Greenplum pour EMC, 2011 aura également
connu ses opération de croissance extérieure. On se souvient alors de HP,
dont les acquisitions de Vertica dans le décisionnel et du très polémique
Autonomy nous ont rappelé que le Big Data était bien un édifice construit
pour durer. Comment ne pas mentionner le rachat de Platform Computing
par IBM ou celui d'Aster Data par Teradata en mars dernier.
Et selon les analystes, ce ne serait qu'un commencement. Car en 2012,
l'offre Big Data devrait se consolider, et les éditeurs combler encore les
manques de leur technologie. Si la tendance vers les plates-formes unifiées
se concrétisent, comme semblent le penser EMC et HP par exemple,
l'intégration de technologies de traitement de données en volume à d'autres
briques pourraient bien se produire. Et pourquoi un rapprochement du BPM
(Business Process Management), ou du MDM (Master Data Management) ?
Page 9 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
La sécurité à l’heure du Big Data
Valéry Marchive, Rédacteur en chef adjoint
Eddie Schwartz, RSI de RSA, ne contredira pas son président exécutif. Pour
lui aussi, en matière de sécurité, il faut adopter une approche de type «Big
Data» : «nous collectons des données de sources multiples - anti-virus, logs
de pare-feu, d'IDS, d'IPS, etc. - mais qui restent en silos. Toute cette
information doit être disponible pour tout le monde, à tout moment. Et il faut
y ajouter des informations sur des paquets de données complets, des
données provenant de sources ouvertes [...] pour mesurer effectivement le
niveau de la menace.» Et d'ajouter à cela que les données de ces sources
multiples «sont dans des formats différents; elles ont besoin d'être
normalisées. Aujourd'hui, c'est mélanger des pommes et des oranges ». Bref,
pour Eddie Schwartz, «il faut construire une structure de données et
commencer à déployer différents composants de décisionnel pour en arriver
à la security intelligence ». Et, accessoirement, cela ne fera qu'accentuer les
tensions pour le recrutement de data scientists déjà de plus en plus
demandé dans le décisionnel classique, comme le relevait récemment
Stephen Brobst, directeur technique de Teradata.
Hugh Njemanze, co-fondateur d'ArcSight, ne le contredirait pas. Interrogé
lors des Assises de la Sécurité, qui se tenaient début octobre à Monaco, il le
Page 10 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
reconnaît bien volontiers : «l'analyse et l'identification de schémas
comportementaux en sécurité, c'est comme dans le marketing ! On parle là
l'algorithmes personnalisés qui cherchent des événements.»
Quand le SIEM se rapproche du décisionnel
Le moteur de corrélation CORR-Engine d'ArcSight Express, illustre bien
cette tendance. Récemment lancée dans sa version 3.0, l'appliance de
gestion des informations des incidents de sécurité (SIEM) de HP s'appuie
bien évidemment sur un système de gestion de bases de données.
Alexandre Depret-Bixio, responsable des ventes ArcSight pour la France,
explique que son moteur analytique Logger s'appuie sur une base données
«propriétaire qui fonctionne par indexation pour gagner en performances.
Pour la corrélation, on a historiquement travaillé avec Oracle, la plus
performante pour l'analytique et la mise en oeuvre de scénarios de
corrélation ». Hugh Njemanze, va plus loin : «nous avons commencé avec
Oracle. Puis nous avons passé 10 ans à affiner sur cette base. Au cours de
cette période, nous avons cherché des alternatives.»
Et, sous la pression d'un marché en «pleine progression» et de la
multiplication des «modèles de corrélation à appliquer», il a fallu «optimiser
et améliorer les performances », explique Alexandre Depret-Bixio. C'est
ainsi qu'ArcSight a été amené à «porter notre savoir-faire acquis avec
Logger sur le moteur analytique de corrélation. Cette nouvelle base de
données s'appelle CORR-Engine ». Proposant les mêmes fonctionnalités
Page 11 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
que la mouture précédente, ce moteur de corrélation serait capable, selon
HP, de traiter 2,5 fois plus d'événements par seconde, de fournir des
réponses à une requête de corrélation 5 fois plus vite et de diviser par 20 les
coûts de stockage.
...avant des transferts technologiques
Après le rachat de Vertica par HP, ArcSight aurait-il intérêt à chercher les
transferts de technologies ? Alexandre Depret-Bixio ne ferme pas la porte :
«ils ont une base de données ulta-performante. Et, oui, on peut imaginer des
portages avec ce type de base de données, ou encore de type GreenPlum.»
Toutefois, plus que la vision en quasi temps réel sur l'infrastructure, pour lui,
le SIEM vise la traçabilité, l'analyse post-mortem. Du moins est-il ainsi
appréhendé par le marché : «le marché n'est pas encore prêt pour un
portage de Vertica sur un SIEM. Mais c'est techniquement possible et c'est
probablement l'avenir.» D'ailleurs, il note un changement dans la perception
du marché : «les entreprises prennent conscience du besoin de changer leur
approche de la sécurité, de l'aborder par les métiers, par le gestion du
risque.» D'ailleurs, il «propose un module SAP pour faire du SIEM applicatif
sur les transactions au sein de SAP. Nous sommes capables d'analyser la
conformité des comportements avec les processus dans une structure
applicative comme SAP ».
Toutefois, Hugh Njemanze reconnaît avoir étudié Vertica comme moteur de
base de données alternatif, «par le passé. Mais il y avait quelques
Page 12 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
incompatibilités. C'est pour cela que nous avons du construire quelque
chose de dédié à nos besoins ». Au final, pour lui, «CORR-Engine est
quelque chose qui n'a pas d'équivalent, aujourd'hui, sur le marché ».
Page 13 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Big Data : IBM et HP avancent sur le terrain des appliances analytiques
Cyrille Chausson, Rédacteur en Chef
Hasard du calendrier, HP et IBM ont décidé la même semaine de montrer
leur muscle sur le très tendance segment du décisionnel analytique et du
"Big Data", confirmant ainsi tout l'intérêt qu'ils portent au secteur, mais
également la guerre qu'ils entendent se livrer sur ce front du IT.
HP, de son côté, a livré la première mise à jour de la plate-forme Vertica
Analytics Platform (dans sa version 5.0) de l'ère Leo Apotheker. Le groupe a
en effet annoncé le rachat de ce spécialiste du datawarehouse en février
2011, scellant dans le marbre l'arrivée de l'ex dirigeant de SAP à la tête du
groupe. Le rachat de Vertica avait notamment été motivé par une
technologie de base de données en colonnes, dérivé du projet C-Store
dirigé par le chercheur du MIT Mike Stonebraker, qui a notamment
développé les SGBD Ingres et Postgres.
HP s'est par ailleurs empressé de faire de la solution de Vertica le coeur
d'une appliance Big Data, le HP Vertica Analytics System, un système qui
conjugue Vertica Analytics Platform et l'infrastructure HP Converged
Infrastructure, qui permet notamment "d'analyser en temps réels
Page 14 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
d'importants volumes de données complexes dans des environnements
physiques, virtuels et cloud", explique HP sur son site Internet.
Cette version 5.0 de Vertica Analytics Platform, qui sera prochainement
intégrée à l'appliance HP, est capable d'analyser un pétaoctet de données,
explique HP dans un communiqué. Parmi les améliorations, le groupe de Leo
Apotheker cite notamment de meilleures performances via des systèmes de
filtrages, de segmentation des données, d'optimisation du requêtage, des
possibilités de réplication et de récupération après sinistre, et de
déploiement multi-environnement et de clonage automatique.
IBM place officiellement Netezza face à Oracle
Première également pour IBM, qui devrait inaugurer ce jour mercredi 22 juin
la première appliance Netezza depuis le rachat de la société en septembre
2010. Un segment de l'analytique dans lequel Big Blue a investi environ 15
milliards de dollars ces dernières années, par le biais d'opérations de
croissance externe notamment.
Cette nouvelle appliance Netezza, baptisée High Capacity Appliance, nous
apprennent nos confrères d'Infoworld, devrait permettre d'analyser jusqu'à
10 pétaoctets de données, et ce en quelques minutes, souligne IBM chez
nos confrères. Big Blue souhaitant ainsi adresser le secteur des banques et
des télécoms, ainsi que tout secteur voué à traiter et analyser des gros
volumes de données.
Page 15 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Cette avancée de HP et d'IBM sur le terrain des outils analytiques de
datawarehouse intégrés sous forme d'appliance vise surtout à venir
concurrencer Oracle et son Exadata, ainsi que le spécialiste du stockage
EMC, présent sur ce segment de marché depuis le rachat de Greenplum en
juillet 2010. En mai dernier, ce même Greenplum, désormais division d'EMC,
a promis pour le 3e trimestre 2011 de sortir sa propre distribution de Hadoop
(Greenplum HP), un framework Java de gestion des données en volume en
environnement distribué, très en vogue dans les milieux du Cloud et du Big
Data. Teradata est également un acteur influent sur le secteur des
appliances de datawarehouse analytiques.
Page 16 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Hadoop fêtera la nouvelle année en version 1.0.0
Christophe Bardy, Rédacteur en chef adjoint
Hadoop est désormais en version 1.0.0
Les développeurs d'Apache Hadoop ont finalement publié cette semaine la
version 1.0.0 du "Big Data" du framework d'analyse de données open source.
Cette première version "officielle" succède à la version 0.22.0. Elle devrait
servir de base à de nouvelles moutures chez les principaux fournisseurs de
distributions Hadoop comme HortonWorks et Cloudera, mais aussi le plus
propriétaire MapR. Ce dernier, dont les travaux servent de base à la
distribution Hadoop d'EMC, se distingue de ses concurrents par le fait qu'il a
développé son propre système de fichier en cluster en lieu et place d'HDFS,
le filesystem "officiel" d'Hadoop.
Ce filesystem propriétaire apporte, selon MapR, de nombreux bénéfices
comme le support des accès NFS, mais aussi des performances et une
résilience bien supérieure à celle de HDFS (avec notamment la distribution
des metadonnées sur l'ensemble des noeuds afin d'éviter les points de
faille).
Page 17 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Plus de sécurité et une API REST-HTTP pour le filesystem HDFS
Selon la fondation Apache, cette version 1.0.0 d'Hadoop apporte de
nombreuses améliorations à HDFS et MapReduce (les deux composants au
coeur d'Hadoop) en termes de sécurité (avec par exemple une
authentification basée sur Kerberos), mais aussi de substantiels gains en
matière de performance. WebHDFS, une API HTTP et REST pour le
filesystem HDFS, permet aussi d'accéder via le protocole HTTP au système
de fichiers Hadoop. De nombreux bugs ont aussi été éliminés depuis la
version 0.20.
Notons que la sortie d'Hadoop 1.0.0 s'accompagne aussi de l'arrivée
d'HBase 0.90.5 (l'équivalent dans le monde Hadoop de BigTable chez
Google) qui corrige 81 problèmes identifiés dont 5 bloquants et 11 critiques.
D'importants travaux de développement se poursuivent
Cette version 1.0.0 n'est toutefois qu'une étape dans le développement
d'Hadoop. La version 0.23 actuellement en version alpha apportera par
exemple des capacités de fédération de clusters HDFS (par exemple pour
fédérer des clusters utilisant des noeuds différents). Elle devrait aussi
éliminer certaines des restrictions actuelles en matière de name node
d'HDFS. L'autre nouveauté importante sera l'arrivée d'une nouvelle mouture
de MapReduce (nom de code YARN), qui séparera la gestion de ressources
de la gestion des jobs (job scheduling). Cette mouture devrait notamment se
Page 18 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
traduire par des gains importants en matière de performances, avec des
gains moyens de 100% sur l'ensemble des tâches.
Article suivant
Page 19 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Hadoop : un engouement pour une technologie qui doit encore évoluer
Cyrille Chausson, Rédacteur en Chef
"Le Big Data est assurément un phénomène mondial", se félicite Mike
Olson CEO de Cloudera au sortir de la conférence Hadoop World qui s'est
tenue à New York les 8 et 9 novembre dernier. Il faut dire que cette société,
qui développe sa propre déclinaison de Hadoop - également organisatrice
de l'événement - surfe sur une des technologies les plus en vue dans le
monde du Big Data.
Si cette 3e édition d'Hadoop World, avec ses 1500 participants, montrait
l'intérêt des éditeurs et des entreprises, c'est certainement parce que
Hadoop aborde un pan clé du Big Data : celui du stockage et de la
distribution des traitements de données non structurées et semi-structurées
vers des clusters (en se reposant notamment sur son système de fichier
HDFS). Un volet - ce n'est pas le seul - du "stack" Big Data vers lequel
lorgnent de nombreux d'éditeurs. Leur motivation : adresser la multiplication
des données générées en dehors de l'entreprise. Cyril Meunier, analyste
chez IDC, nous parle des phénomènes des média sociaux, par exemple,
avec lesquels les entreprises tentent de jongler. Le marché du stockage lié à
ces données devraient atteindre 2 Md$ en 2015, au niveau mondial. Sans
Page 20 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
parler des données liées à la mobilité, aux tablettes et bien sûr au Saas, dont
le modèle a ouvert des passerelles vers des données placées à l'extérieur
de l'entreprise.
Editeurs et utilisateurs y adhérent, presque logiquement. IBM, Sybase,
Informatica, Greenplum, Yahoo - avec désormais Hortonworks -, Oracle, et
Microsoft ont décidé d'aligner certaines de leurs offres sur Hadoop. Entre
temps, la NSA est devenue un contributeur clé dans la communauté du
projet.
Si Hadoop n'est certes pas la seule brique technologique à adresser le
stockage des données non structurées, celle solution se distingue
notamment par son côté Open Source, à coût plus modeste. "Hadoop
contribue à modifier le modèle économique du Big Data", nous confirme
James Markarian, vice président exécutif et directeur technique
d'Informatica, soulignant ainsi que le coût reste l'un des critères n°1 dans
l'adoption du framework. Il cite également l'exemple d'Ebay qui entend
remplacer son infrastructure en place par un environnement reposant sur
Hadoop (le projet Cassini). Mais pas uniquement. Selon lui, le framework est
naturellement plus flexible : "Hadoop permet d'étendre plus facilement des
environnements Oracle, par exemple, que d'autres technologies", souligne-t-
il. Informatica, de son côté, a sorti début novembre un parseur pour Hadoop
(Informatica HParser) qui permet de transformer des données complexes
Page 21 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
non-structurées en format structuré ou semi-structuré dans Hadoop, afin de
les rendre exploitables dans des tableaux analytiques, par exemple.
Un manque de compétences
Reste que "nous n'en sommes qu'au début de l'histoire", nuance James
Markarian. Hadoop n'a pas encore résolu tous ses problèmes. Il cite
notamment un modèle de sécurité et des technologies adjacentes encore
immatures. Autre écueil également pointé du doigt, le manque de
compétences. Il évoque alors une pénurie de développeurs sur le marché.
"Des entreprises sont aujourd'hui prêtes à payer très cher pour s'offrir un
profil Hadoop, mais elles ne trouvent pas. Yahoo, par exemple, commence à
travailler avec des universités pour améliorer le niveau des compétences",
affirme-t-il.
A cela pourrait également s'ajouter le manque de standardisation du
framework. Un point que soulevait James Kobielus, analyste chez Forrester,
rappelant l'absence, par exemple, d'architecture de référence de cluster
Hadoop, de test de compatibilité ou encore de certification. Un frein, selon
lui, aux déploiements dans les entreprises, "qui risquent [aujourd'hui, NDLR]
gros" à implémenter la solution.
Page 22 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2012 : BI, Open Source, MDM, emploi : l’impact est de plus en plus grand
Dans l’ombre du Big Data, les acteurs du MDM continuent à innover
La Rédaction, LeMagIT
On pourrait penser que le Master Data Management (MDM) n'est plus la
principale préoccupation des éditeurs d'outils de gestion de données. Le
concept n'est pas le plus sexy auprès des départements marketing, et après
avoir été relativement tendance ces 5 dernières années, l'influx «hype» que
pouvaient générer ces produits s'est déplacé sur le terrain du Big Data et de
la virtualisation des données.
A cela s'ajoute également autre chose : le fait que le MDM reste un concept
flou pour de nombreuses entreprises, ce qui nuit un peu plus son image.
«Il existe beaucoup d'incompréhension autour du concept du MDM», affirme
Clive Longbottom, fondateur du cabinet d'analyse britannique Quocirca. « La
plupart des entreprises considèrent le MDM et pensent qu'il ne s'agit là que
de nettoyer leurs données clients pour posséder un unique référentiel de
données. Ce n'est pourtant pas le cas. Il s'agit de se concentrer sur ce qui
compte pour les activités de l'entreprise.»
Page 23 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
«Par exemple, souligne Longbottom, il se peut que les données clients ne
soient pas les principales données maîtres pour une entreprise. Cela peut
être le type d'objet vendu, les fournisseurs ou plus généralement, une
combinaison de différents facteurs - qui nécessite alors d'avoir un ou
plusieurs référentiels de données.»
Aaron Zornes, directeur de la recherche au MDM Institute aux Etats-Unis,
explique, quant à lui, que «le MDM est fort utile pour accompagner les
entreprises vers des processus qu'elles avaient traditionnellement du mal à
mettre en place». Comme par exemple établir un processus de vente
croisée entre différents lignes de produits, entre différents départements,
ou avoir une vue unifiée des clients, ou encore répondre aux contraintes de
conformité juridique, ajoute-t-il.
Selon lui, le concept du MDM est également plus concret que celui du Big
Data. «Je m'insurge à chaque fois que j'entends ce terme. Il ne s'agit pas de
presser un simple bouton et de se retrouver à l'ère du Big Data. La
volumétrie grandissante des données est un phénomène qui existe depuis
plusieurs années.»
Aujourd'hui, le MDM étend ses ramifications pour aller embrasser d'autres
concepts comme le BPM (Business Process Management), l'intégration de
données, la qualité des données et - bien sûr - le Big Data. Et bien que le
Page 24 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
MDM ait quelque peu disparu des écrans radars, il reste une technologie
emprunte d'innovation.
MDM : un monde qui innove
Selon Aaron Zornes, de nombreuses avancées technologiques ont été
réalisées avec le MDM, comme la résolution d'identité, par exemple, qui
repose sur de puissants algorithmes capables de vérifier si une personne
est ce qu'elle prétend être - une fonction clé dans la gestion du risque et la
prévention des fraudes. «Parmi les très récents algorithmes, certains, très
performants, parviennent à déterminer qui est qui, par une simple
association indirecte - par exemple, via un numéro de téléphone ou l'analyse
des liens conjugaux.»
Grâce à une série de rachats, IBM est parvenu à assembler des fonctions de
résolutions de données. Tout comme Informatica ou Tibco qui en ont fait
une de leurs priorités, commente Aaron Zornes.
Le Data Matching, qui permet d'identifier et de consolider les différentes
versions des données produit est une autre catégorie du MDM qui a
bénéficié d'investissements conséquents de la part des éditeurs. Comme
par exemple Oracle avec l'acquisition en janvier 2010 de Silver Creek
Systems, spécialisé dans la qualité de données produites.
Page 25 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Mais la plus forte innovation autour du MDM est celle qui vise à analyser la
masse de données non structurées générées sur le Web. Aaron Zornes
explique : «Les entreprises estiment avoir une vision à 360° de leur clientèle
rien qu'en achetant des données clients auprès de Dun & Bradstreet. Cette
vision n'est en fait que de 75 degrés. Si vous souhaitez avoir une vue
d'ensemble, vous devez également trier la masse d'informations, présente
en ligne, sur Facebook, Twitter et LinkedIn.
Les outils MDM peuvent également aider à agréger des données au format
texte à partir de sources traditionnelles -stockant des données structurées -
au sein d'un référentiel de données maîtres unifié. Et cela a un impact
certain sur les activités. «Etre capable d'injecter des informations comme les
loisirs des clients, quelle équipe de football ils supportent, par exemple,
apporte une vraie valeur pour les commerciaux qui veulent être proches de
leurs clients», affirme-t-il.
De plus, les systèmes MDM s'équipent de technologie in-memory afin de
proposer des fonctions d'analyse de données dynamiques en temps réel,
ajoute-t-il. SAP place par exemple sa technologie de MDM au dessus de son
moteur de traitement in-memory Hana. «Nous allons assister à l'arrivée du
MDM temps réel, certes coûteux, mais cela va devenir la norme.»
Autre exemple, celui de Microsoft, qui prévoit d'intégrer des outils de MDM
gratuits dans la prochaine version d'Office, nom de code Office 15. Ce qui,
Page 26 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
selon Aaron Zornes, devrait contribuer à ouvrir un peu plus le marché du
MDM aux PME.
Volvo : un moteur du MDM
Travaillant depuis 2008 sur un MDM maison, le constructeur automobile
Volvo réfléchit actuellement à différents produits susceptibles de répondre à
ses besoins en matière de MDM. Le directeur du programme Christoph
Balduck affirme que si le groupe apprécie la valeur apportée par les méga-
acteurs sur le terrain de la qualité de données, il pense quant à lui que
certaines innovations sont aujourd'hui entre les mains des acteurs de niche.
«Par exemple, nous regardons attentivement Talend, qui a une offre Open
Source particulièrement performante en migration de données», souligne
Christoph Balduck. Il se dit également impressionné par ce qu'il a vu chez
Orchestra Networks : «Ils réfléchissent autour de la modélisation
sémantique, ce qui constitue, je crois, le futur du MDM. Il s'agit également
d'un des seuls fournisseurs à proposer une offre de MDM dans le Cloud.»
La fonction de contrôle de version DataSpace d'Orchestra, qui permet aux
utilisateurs de simuler les effets en live d'une modification sur les données
maîtres, est particulièrement intéressante aux yeux de Balduck. «Nous
pouvez non seulement contrôler l'impact sur votre modèle de données, vos
contenus et attributs, mais également de quelle façon cela modifie, ou pas,
Page 27 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
votre workflow et vos règles métiers, notamment», explique-t-il. «Si la
simulation ne génère pas d'incidents, les modifications peuvent être
appliquées et mises en production. Cette capacité, celle d'être aussi flexible,
est très créatrice de valeur.»
Toutefois, il reste encore du chemin à parcourir : Aaron Zornes note que les
fournisseurs de technologies ont été très lents à adresser les
problématiques de la gouvernance des données notamment. Seul un
nombre réduit a posé ses jalons sur ce segment, et rare sont ceux qui s'y
sont véritablement engouffrés.
Et il reste encore le problème de l'intégration des différents jeux de données
maîtres, développés à l'intérieur de chaque entreprise. «Il n'existe
actuellement aucune autre solution que d'acheter un hub supplémentaire»,
affirme Aaron Zornes. «Les éditeurs parlent de «über-hub», mais
actuellement personne n'est capable d'intégrer toutes les applications à un
niveau souhaitable pour les entreprises».
Page 28 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Le Big Data, un moteur pour Linux
Cyrille Chausson, Rédacteur en Chef
Que de chemin parcouru en 20 ans, pourrait-on observer à la lecture du
dernier baromètre ("Linux Adoption Trends 2012: A Survey of Enterprise
End Users") publié par la Linux Foundation le 18 janvier dernier. Linux, qui a
fêté son vingtième anniversaire en 2011, devrait ainsi passer sa 21e année un
peu plus ancré dans les systèmes d'information des entreprises, grâce à sa
montée en puissance sur des segments technologiques très porteurs,
comme le Cloud - dont il constitue la base critique -, mais également le Big
Data - la sphère des outils Hadoop fait office de tête de proue de ce
phénomène - ainsi que la virtualisation.
Il est ainsi logique de constater que le taux d'adoption de l'OS Open Source
devrait suivre une courbe ascendante en 2012 auprès des entreprises déjà
adeptes de Linux. Dans son rapport, la Linux Foundation indique que 84 %
des entreprises sondées ont augmenté leurs installations de Linux au cours
de ces douze derniers mois, et confirment leur intention de muscler un peu
plus leurs efforts en la matière en 2012 (à 82%). Une fois les remparts du SI
franchis, Linux a la capacité de se généraliser donc, pourrait-on alors en
conclure. Seulement 21,7% des entreprises sondées (qui utilisent déjà Linux)
Page 29 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
envisagent toutefois d'augmenter leur parc de serveurs Windows alors que
25% envisagent d'en diminuer le nombre.
Mais l'un des points intéressants de cette étude est de constater que la
décision d'opter pour Linux dans les entreprises n'est pas uniquement liée à
une migration depuis Windows ou Unix. 71,6% des entreprises sondées
affirment que Linux a été choisi en première intention pour supporter de
nouveaux services ou des nouvelles applications, ces deux dernières
années. Seulement 38,5 % des nouveaux déploiements Linux avaient pour
origine une migration Windows, contre 34,5 % pour une migration Unix. Il
apparaît donc normal que ces mêmes entreprises aient également fait le
choix de positionner Linux sur leurs applications critiques, dans 69,1% des
cas. La Linux Foundation indique que cela représente une hausse de 10%
par rapport à 2010.
Linux, la solution pour le Big Data
Si le Cloud et la virtualisation sont identifiés comme des moteurs de
l'adoption de Linux, l'étude montre également que les entreprises
considèrent l'OS Open Source comme intrinsèquement lié au concept très
tendance du «Big Data». Environ 72% des entreprises interrogées
envisagent d'utiliser Linux pour supporter cet environnement, constate la
fondation, soulignant que 35,9% préfèrent Windows. Notons au passage
qu'en matière de Big Data, Microsoft s'est récemment rangé derrière
Hadoop, travaillant, en collaboration avec HortonWorks, à rendre
Page 30 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
interopérable le framework Java avec les environnements Windows Server
et Azure.
Reste que tout n'est pas si rose pour Linux. Car il subsiste encore quelques
freins importants à son adoption dans les entreprises. Là, contrairement aux
années passées, les problèmes d'ordre technique ne sont plus cités comme
le barrage n°1 à l'arrivée de Linux dans le SI. Si la problématique technique
est encore citée dans 12,2% des cas (contre 20,3% en 2010), elle est loin
derrière celle liée à la perception qu'ont les dirigeants de Linux, qui
représente,dans 39,6 % des cas, le frein au succès de l'OS dans les
entreprises. L'interopératibilité (à 35,3%), l'absence de compétence (32,5%),
la disponibilité des pilotes (30,6%), la fragmentation (26,8%) et les
problèmes de conformités légales sont les 5 freins plus techniques cités par
les entreprises.
Enfin, dernier élément intéressant de l'étude, les contributions de la
communauté ont monté en puissance en 2011. Si une progression de 12
points du taux de participation aux événements de la Linux Foundation est à
noter, on remarque également que les développeurs se sont davantage
impliqués dans les tests à la correction de bugs, en hausse de 5 points en un
an (cité par 42,7% des entreprises sondées). Reste que 23% affirment ne
pas avoir d'activités au sein de la communauté Linux. Contre seulement
21,8% qui prétendent contribuer aux évolution du code.
Page 31 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Pour Gartner, le Big Data va créer 4,4 millions d'emplois en 3 ans
Reynald Fléchaux, Journaliste
Pour Gartner, les dépenses IT vont progresser de 3,8 % en 2013 et le Big
Data y sera pour beaucoup. Le cabinet d'études, qui tient sa conférence IT
Expo cette semaine à Orlando, estime que d'ici à 2015, 4,4 millions d'emplois
IT seront créés dans le monde pour supporter les besoins des organisations
en matière de Big Data. Pour les seuls Etats-Unis, ce chiffre devrait atteindre
1,9 million.
Surtout, ces créations d'emplois dans le Big Data devraient avoir un effet
induit majeur. Pour chaque job créé aux Etats-Unis dans la gestion de
grands volumes de données, Gartner estime que trois autres emplois
verront le jour hors IT.
Page 32 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Big Data, décentralisation : les nouveaux défis de la Business Intelligence
Reynald Fléchaux, Journaliste
Un domaine à la fois mature et en pleine évolution. C'est en somme le
constat que dresse Reda Gomery, directeur du conseil en BI au sein de la
SSII Keyrus. Lors d'un récent événement organisé par SAP sur le
décisionnel, l'expert de cet intégrateur spécialisé notamment dans
l'analytique a rappelé la solidité du marché français de la BI, où la croissance
tourne autour des 5 % ces dernières années (pour un chiffre d'affaires total
d'environ 2 milliards d'euros par an). Une progression régulière qui témoigne
de l'extension des usages au sein des organisations, "d'une forme de
maturité", selon Reda Gomery.
Une maturité qui ne signifie toutefois pas que toutes les difficultés sont
aplanies. Le dirigeant estime notamment que les organisations sont
confrontées à un problème d'architecture : "elles doivent imaginer une
structure de la BI leur permettant de produire à la fois des indicateurs
corporate tout en accordant un certain degré d'autonomie aux structures
locales", qui elles aussi veulent produire leurs rapports. Un grand écart
difficile à réaliser si l'on veut éviter la construction de silos d'information et la
multiplication des outils de reporting, créant autant de visions de la réalité de
Page 33 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
l'entreprise qu'il y a de départements dans l'entreprise. A ce premier
dilemme, s'ajoute également le besoin d'améliorer les processus et
méthodes au sein de l'organisation chargée du décisionnel dans l'entreprise,
afin qu'elle soit plus réactive aux demandes des utilisateurs, qu'elle puisse
produire les indicateurs au rythme attendu par les métiers.
Facebook ? La plus grosse base de clients au monde
Pour Reda Gomery, les initiatives pour répondre à ces défis se multiplient. Et
le dirigeant de détailler quelques bonnes pratiques : mise en place de
processus de gouvernance de la BI (régissant les interactions entre MOA et
IT), distinction entre BI industrielle (produisant les tableaux de bord
institutionnels) et BI agile (répondant à des questions métier ponctuelles) ou
encore suivi des audiences permettant de comprendre les usages réels des
outils.
Si l'organisation de la BI en interne et sa rationalisation sont des chantiers à
part entière, les outils connaissent également des évolutions fonctionnelles
importantes. "D'abord, de nombreuses entreprises ne sont pas encore
équipées de fonctions, comme la prévision, la simulation, aujourd'hui
présentes dans toutes les dernières générations d'outils", explique Reda
Gomery. Et se profile, bien entendu, la révolution du Big Data, que le
dirigeant qualifie avant tout "comme une explosion des données exploitées
avec une ouverture vers des informations situées en dehors de l'entreprise.
Aujourd'hui Facebook n'est-il pas la plus grosse base de clients au monde ?"
Page 34 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Un bouleversement pour de nombreux secteurs, comme l'énergie qui, avec
l'arrivée des compteurs intelligents, va collecter une vingtaine de relevés par
jour. Ce qui se traduit par le besoin d'accélérer les cycles de décision, donc
le rythme de production des indicateurs, et d'étendre la BI à de nouveaux
utilisateurs opérationnels.
Article suivant
Page 35 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2013 : un monde qui se structure
Charte Ethique et Big Data : l’Alliance Big Data veut garantir la traçabilité des données
Cyrille Chausson, Rédacteur en Chef
L'Alliance Big Data, un mouvement co-créé en 2013 par l'Aproged
(l'association des professionnels de la maîtrise et de la valorisation des
contenus) et le pôle de compétitivité Cap Digital, ont annoncé la création
d'une
charte éthique et Big Data dont la vocation est de proposer un cadre sur
lequel les entreprises peuvent s'appuyer lors de la mise en place de projets
liés à l'usage de données. Cette charte, présentée lors du forum GFII le 30
mai dernier, représente la deuxième étape de cet ensemble d'acteurs réunis
au sein de l'Alliance Big Data. A l'origine, ce mouvement, raconte Marie-Odile
Charaudeau, déléguée générale de l'Aproged, a pour objectif de créer une
structure représentative du secteur afin de proposer au marché une vision
unique du Big Data, de créer une communauté autour des usages et surtout
«de créer une cohérence pour éviter le buzz marketing et confirmer que cela
correspond bien à une réalité». Outre l'Aproged (pour les contenants et les
Page 36 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
outils) et Cap Digital, (pour l'innovation et le business), l'Alliance Big Data
réunit ainsi le groupement français de l'industrie de l'information (GFII) qui
représente les contenus, l'association des professionnels de l'information et
de la documentation (ADBS) pour les utilisateurs et enfin l'Association pour
le traitement automatique des langues (Atala) qui ajoute à cette équation le
monde académique de la recherche. Capgemini s'y est également associé et
finance partiellement le projet. Il s'agit ici de mettre en avant «une
représentativité tant dans les fonctions que dans les approches» du Big
Data, souligne Marie-Odile Charaudeau. Un portail sert aujourd'hui de point
de référence pour fédérer la communauté ainsi que les connaissances et
favoriser le partage entre les membres. Car en matière de Big Data, la
chaîne de valeur est en effet très longue.
Un cycle de vie de la donnée transparent Cette charte vient ainsi
logiquement s'inscrire dans ce projet. Composé de 4 chapitres, ce document
est d'abord né des expériences de l'Aproged et de Cap Digital, accumulées
lors de précédents projets, avant qu'un groupe de travail soit monté avec
l'AFCP et Atala. Cette charte éthique «fournit une trame de description des
corpus de données et sert de mémorandum des points à décrire lorsque l'on
met à disposition des données, que ce soit à usage commercial ou
académique, payant ou gratuit», indique ainsi l'Alliance. En gros, en devenant
signataires, les entreprises offrent une garantie en matière de sourcing,
d'usage, de rémunération - si les données y sont associées. Une façon de
rassurer les acteurs qui pourraient faire usage de ces données en
Page 37 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
garantissant, presque de façon contractuelle, leur transparence et leur
niveau d'éthique. En clair : proposer une traçabilité de la donnée, dans sa
création, son échange, sa diffusion et sa ré-utilisation. Dans le détail, cette
charte invite les entreprises à définir les données ainsi que leur nature, d'en
connaître les sources, son processus de fabrication (données consolidées ?
données primaires ? enrichissement ?), les contributeurs aux données, les
outils utilisés, les processus de validation, la propriété intellectuelle associée
et les licences ou encore si ces données sont liées à des réglementations
spécifiques. Bref tout «pour informer le porteur de projet sur les questions
qu'il doit se poser», explique Charles Huot, président du comité éditorial du
portail de l'Alliance Big Data (et en charge du développement corporate
chez l'éditeur Temis - enrichissement sémantique). Elle invite en somme à
décrire le cycle de vie de la donnée livrée, avant, pendant et après sa
constitution. «Cette charte constitue un premier pas d'information»,
poursuit-il, précisant qu'elle est appelée à évoluer afin de prendre en compte
les spécificités métiers de chaque entreprise. Elle cible toutes les
entreprises manipulant de la donnée, qu'elle soit du monde du logiciel ou
technique, ainsi que du monde des services qui exploitent ces données,
explique-t-il enfin.
Page 38 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
La chasse au «data scientist» est ouverte
Valéry Marchive, Rédacteur en chef adjoint
Le phénomène est peut-être jeune mais l'adoption croissante des
technologies Big Data et le recours de plus en plus important qu'elle induit
aux scientifiques des données ou «data scientists» génère une véritable
explosion de la demande pour ces profils encore rares. Un profil de
spécialistes capables de dégager des tendances dans d'importants volumes
de données pour en retirer une exploitation fine et pertinente.
A tel point que, selon le New York Times, Seattle et Big Apple « rivalisent
déjà pour être le prochain lieu de référence, au-delà de la Silicon Valley, pour
la formation de ces scientifiques du futur. Nos confrères évoquent ainsi
plusieurs initiatives de Michael Bloomberg, maire de New York, visant à
s'assurer que sa ville sera bien nommée dès lors que l'on parlera Big Data. Et
d'évoquer notamment une participation de 15 M$ au budget de l'université
de New York qui visera notamment à lui permettre d'appliquer le Big Data à
l'étude de problématiques urbaines concrètes telles que l'efficacité
énergétique des gratte-ciels ou la fiabilité du métro. Pour Yann LeCun,
directeur du «Center for Data Science» de l'université, la ville «est sur le
point de devenir la Mecque de la science des données ».
Page 39 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
De l'autre côté du pays, l'université de Washington à Seattle, n'est pas en
reste. Elle a notamment créé un nouveau doctorat du Big Data. Une demi-
surprise alors qu'elle reçoit des contributions financières généreuses
d'acteurs de l'IT très intéressés par le sujet : Microsoft, Google ou encore
Amazon. Et ce n'est pas tout : elles mettent également à disposition des
données issues du monde réel pour faire plancher les étudiants.
Article suivant
Page 40 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Bertrand Diard (Afdel) : "créer la filière Big Data française, c'est maintenant ou jamais"
Reynald Fléchaux, Journaliste
Chargé par le gouvernement de réfléchir à la création d'une filière Big Data
en France dans le cadre de l'Afdel (Association française des éditeurs de
logiciels, NDLR), Bertrand Diard, le Pdg de l'éditeur Talend, revient sur les
grandes orientations de son projet, qui doit être officiellement remis à la
ministre de l'Economie numérique Fleur Pellerin dans les prochaines
semaines. Pour le jeune Pdg de l'éditeur Open Source, et également
administrateur de l'association, la France a une fenêtre d'opportunité sur ce
sujet. Mais cette fenêtre va très vite se refermer, compte tenu de l'afflux
d'argent vers le secteur du Big Data.
LeMagIT : Dans quel contexte s'inscrit cette mission sur la création d'une
filière Big Data en France ?
Bertrand Diard : Quand Fleur Pellerin est arrivée au gouvernement, elle a
consulté différents dirigeants de l'industrie du logiciel, dont je faisais partie,
sur les prochaines technologies de rupture. Le constat est cruel : la France a
raté plusieurs bouleversements majeurs, Internet, le Cloud, les moteurs de
Page 41 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
recherche, le mobile... Or, dans les technologies, si nous n'arrivons pas à
nous positionner en avance sur la Silicon Valley, nous sommes pénalisés par
nos capacités financières plus réduites. Qui plus est, tout retard au
démarrage démultiplie les besoins d'investissement afin de combler l'écart.
LeMagIT : En janvier, Fleur Pellerin a confié à l'Afdel une mission - que
vous présidez - pour préciser les contours d'une future filière Big Data à
Paris, dans le cadre de Paris Capitale du numérique. Quelles sont les
principales recommandations de l'Afdel à ce jour ?
B.D. : Même si ces recommandations ne sont pas encore finalisées, et n'ont
pas été présentées officiellement à la ministre, quelques idées se dégagent
déjà. D'abord sur la cible de la filière. Il faut constater que la France arrive
déjà un peu tard sur les infrastructures de support, où Hadoop semble
s'imposer comme un standard et où une société comme Cloudera a déjà
levé quelque 160 M$, ou sur l'intégration. Nous recommandons donc de
cibler les applications qui viendront supporter les métiers, applications qui
aujourd'hui n'existent pas. C'est une opportunité considérable.
LeMagIT : Quels sont les leviers que vous imaginez pour créer ces
sociétés spécialisées dans l'applicatif Big Data ?
B.D. : Nous avons imaginé un écosystème avec 6 composantes. Des
fondations : universités, laboratoires de recherche, l'intégration du Big Data
dans la formation permanente. La mise en place d'un guichet unique
Page 42 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
facilitant la création d'entreprises, au sein de Paris Capitale du numérique.
Des infrastructures via des accords de partenariat permettant aux start-up
d'accéder gratuitement pendant leur incubation à des environnements
Cloud, des logiciels d'infrastructure et à l'accompagnement technique
d'ingénieurs issus des grands intégrateurs hexagonaux comme Capgemini,
Atos ou Bull. La création de passerelles avec des structures capables
d'accompagner les créateurs d'entreprise dans la commercialisation de
leurs produits et le marketing. La mise sur pied d'un fonds d'investissement
dédié, à parité public-privé. Ce fonds recevant, c'est le sixième pilier de la
stratégie, une gouvernance dédiée, mélangeant elle aussi les profils issus du
public et du privé et complétée par un "advisory board".
LeMagIT : Quel serait l'investissement que devrait consentir l'Etat ?
B.D. : Dans nos recommandations, nous proposons que l'Etat investisse 150
M€. S'il le fait, je garantis l'apport des 150 M€ complémentaires, issus
d'entreprises ou de fonds à la recherche d'investissements dans le Big Data.
Par mes contacts, je sais que nous pourrons tenir cet objectif. Sur la période
2013-2018, nous disposerions ainsi de 300 M€ ; si on considère que chaque
start-up nécessite 1 à 3 M€ en amorçage, la France aurait alors à disposition
un outil pour créer 100 start-ups sur le créneau. Avec un vrai potentiel de
retour sur investissement. Si on considère qu'une start-up sur dix réussira,
et atteindra en 4 ou 5 ans les 50 M€ de chiffre d'affaires, nous avons calculé
que la création de valeur atteindrait 2,6 Md€. Et que ces 10 éditeurs
Page 43 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
créeraient environ 5 000 emplois. Si la France parvient à ces résultats, elle
sera dans le bon wagon au niveau international. Probablement juste derrière
la Silicon Valley.
LeMagIT : Où en êtes-vous de vos discussions avec le cabinet de la
ministre ?
B.D. : Nous sommes en phase d'itération sur ce projet, le ministère est très
réceptif sur le sujet. Nous espérons présenter nos recommandations
finalisées à la ministre dans les prochaines semaines. Il faut aller vite : soit
nous parvenons à mettre sur pied cette filière dans les 6 mois qui viennent,
soit la France aura raté ce nouveau train.
Page 44 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
A la découverte d'Hadoop
Christophe Bardy, Rédacteur en chef adjoint
La première technologie qui vient à l’esprit lorsque l’on évoque aujourd’hui le
sujet du Big Data est Hadoop est le framework analytique Java développé
au sein de la fondation Apache. Populaire, Hadoop reste toutefois un
mystère pour nombre d’utilisateurs. Pour mieux comprendre les fondements
technologiques d’Hadoop et les différentes briques qui le composent,
LeMagIT s’est plongé dans l’histoire et l’architecture du framework.
Hadoop trouve ses racines dans les technologies propriétaires d’analyse de
données de Google. En 2004, le moteur de recherche a publié un article de
recherche présentant son algorithme MapReduce, conçu pour réaliser des
opérations analytiques à grande échelle sur un grand cluster de serveurs, et
sur son système de fichier en cluster, Google Filesystem (GFS). Doug
Cutting, qui travaillait alors sur le développement du moteur de recherche
libre Apache Lucene et butait sur les mêmes problèmes de volumétrie de
données qu’avait rencontré Google, s’est alors emparé des concepts décrits
dans l’article du géant de la recherche et a décidé de répliquer en open
source les outils développés par Google pour ses besoins. Employé chez
Yahoo, il s’est alors lancé dans le développement de ce qui est aujourd’hui le
Page 45 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
projet Apache Hadoop – pour la petite histoire, Hadoop est le nom de
l’éléphant qui servait de doudou à son jeune fils.
Hadoop : un framework modulaire
Hadoop n’a pas été conçu pour traiter de grandes quantités de données
structurées à grande vitesse. Cette mission reste largement l’apanage des
grands systèmes de Datawarehouse et de datamart reposant sur des SGBD
traditionnelles et faisant usage de SQL comme langage de requête. La
spécialité d’Hadoop, ce serait plutôt le traitement à très grande échelle de
grands volumes de données non structurées tels que des documents
textuels, des images, des fichiers audio… même s’il est aussi possible de
traiter des données semi-structurées ou structurées avec Hadoop.
HDFS : le système de gestion de fichier en cluster au cœur d’Hadoop
Au cœur du framework open source se trouve avant tout un système de
fichiers en cluster, baptisé HDFS (Hadoop Distributed Filesystem). HDFS a
été conçu pour stocker de très gros volumes de données sur un grand
nombre de machines équipées de disques durs banalisés.
Page 46 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Le filesystem HDFS est conçu pour assurer la sécurité des données en
répliquant de multiples fois l’ensemble des données écrites sur le cluster.
Par défaut, chaque donnée est écrite sur trois nœuds différents. Il ne s’agit
pas du plus élégant des mécanismes de redondance, ni du plus efficace,
mais étant donné que l’on s’appuie sur des disques durs SATA
économiques, un cluster HDFS a le bénéfice d’offrir une solution de
stockage très économique par rapport à celui des baies de stockage
traditionnelles. En l’état, HDFS est optimisé pour maximiser les débits de
données et non pas pour les opérations transactionnelles aléatoires. La taille
d’un bloc de données est ainsi de 64 Mo dans HDFS contre 512 octets à
4 Ko dans la plupart des systèmes de fichiers traditionnels. Cette taille de
bloc s’explique par le fait que Hadoop doit analyser de grandes quantités de
données en local.
Avec la version 2.0 d’Hadoop, la principale faiblesse d’HDFS a été levée :
jusqu’alors la gestion des métadonnées associées aux fichiers étaient la
mission d’un unique « name node » ; ce qui constituait un point de faille
unique. Depuis la version 2.0 et l’arrivée de la fonction HDFS High
Availability, le "name node" est répliqué en mode actif/passif, ce qui offre
une tolérance aux pannes. Un autre « défaut » d’HDFS est que le système
n’est pas conforme au standard POSIX et que certaines commandes
familières sur un filesystem traditionnel ne sont pas disponibles.
Page 47 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Il est à noter que si HDFS est le système de fichiers par défaut d’Hadoop, le
framework peut aussi être déployé sur des systèmes tiers, souvent grâce à
des couches de compatibilité. MapR, l’un des pionniers d’Hadoop, a ainsi
développé son propre système de gestion de fichiers qui règle le problème
de fragilité lié aux "name nodes" d’HDFS (en distribuant les informations de
métadonnées sur les nœuds de données) et qui ajoute aussi des fonctions
avancées comme les snapshots, la réplication ou le clonage. Plusieurs
constructeurs de baies de stockage comme EMC, HP ou IBM ont aussi
développé des couches de compatibilité HDFS au dessus de certaines de
leurs baies ; ce qui leur permet de stocker les données d’un cluster Hadoop.
MapReduce : distribuer le traitement des données entre les nœuds
Le second composant majeur d’Hadoop est MapReduce, qui gère la
répartition et l’exécution des requêtes sur les données stockées par le
cluster. Le framework MapReduce est conçu pour traiter des problèmes
parallèlisables à très grande échelle en s’appuyant sur un très grand nombre
de nœuds. L’objectif de MapReduce et de son mécanisme avancé de
distribution de tâches est de tirer parti de la localité entre données et
traitements sur le même nœud de façon à minimiser l’impact des transferts
de données entre les nœuds du cluster sur la performance.
Page 48 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
MapReduce est un processus en plusieurs étapes. Dans la phase « Map », le
nœud maitre divise le problème posé en sous-problèmes et les distribue
entre nœuds de traitement. Ces nœuds peuvent en cascade distribuer à
nouveau les tâches qui leur ont été assignées. Les réponses sont ensuite
remontées de nœuds en nœuds jusqu’au nœud maitre ayant assigné les
travaux à l’origine.
C’est alors que s’opère l’étape "Reduce" : le nœud maitre collationne les
réponses remontant des nœuds de traitement et les combine afin de fournir
la réponse à la question posée à l’origine. Il est à noter que les traitements
Mapreduce s’opèrent sur des données structurées sous la forme (clé,
valeur) et que des mécanismes d’optimisation assurent que les traitements
sont distribués de telle sorte qu’ils s’opèrent au plus proche des données
(c’est-à-dire idéalement sur les neuds qui hébergent les données
concernées).
De nouveaux outils et langages pour faciliter les requêtes sur Hadoop
Les API clés de MapReduce sont accessibles en Java, un langage certes
populaire mais qui requiert des compétences bien plus pointues que la
maîtrise d’un langage d’interrogation comme SQL. Plusieurs langages ont
donc émergé pour tenter de simplifier le travail des utilisateurs d’Hadoop,
Page 49 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
dont Pig et Hive. Né chez Yahoo, Pig est conçu pour traiter toute forme de
données. Le langage de Pig est PigLatin, complété par un runtime destiné à
exécuter les programmes rédigés en PigLatin. PigLatin a une sémantique
assez simple. Il permet de charger des données, puis de les manipuler
(appliquer des filtres, des groupements, des opérations mathématiques…).
Chez Facebook, des développeurs ont quant à eux conçu Hive, pour
permettre à des développeurs familiers du langage SQL de manipuler des
données dans Hadoop. Hive dispose d’un langage baptisé HQL (Hive
Query Langage) dont la syntaxe est similaire à celle de SQL. Le service Hive
découpe les requêtes en jobs MapReduce afin de les exécuter sur le cluster.
Au fil des ans, Hadoop a continué à s’enrichir de nouvelles applications,
comme la base de données Hbase, qui fournit des services similaires au
service BigTable de Google. Hbase est une base de données en colonnes
(dans la mouvance NoSQL) qui s’appuie sur le système de gestion de
fichiers en cluster HDFS pour le stockage de ses données. Hbase est
notamment utile pour ceux qui ont besoin d’accès aléatoires en
lecture/écriture à de grands volumes de données. La base intègre des
fonctions de compression et de traitement « in-memory ».
Parmi les autres composants connus, on peut aussi citer la technologie
d’apprentissage Apache Mahout, ainsi que la technologie d’administration de
cluster Zookeeper. Zookeeper est lui-même un service distribué qui permet
Page 50 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
de coordonner l’ensemble des processus distribués sur le cluster, mais aussi
de gérer les configurations de ses différents éléments.
Un écosystème qui ne cesse de s’enrichir
Signalons pour terminer que le périmètre d’Hadoop continue de s’élargir, les
différents développeurs de distributions Hadoop ajoutant progressivement
de nouveaux composants, outils ou langages afin d’enrichir les composants
de base du framework. Cloudera a ainsi récemment publié Impala, sa
technologie de query SQL massivement parallèle, pour le traitement en
temps réel de données stockées dans Hbase ou dans HDFS. Dans le cadre
de son projet Hawq, Pivotal a, quant à lui, porté sa base de données
massivement parallèle Greenplum sur HDFS et étendu sa technologie de
query aux données non structurées et semi-structurées stockées sur HDFS.
Et c’est sans compter sur les multiples intégrations réalisées par des
acteurs des bases de données traditionnelles et de l’analytique, comme
Teradata, Oracle ou Microsoft… Un signe évident du dynamisme de
l’écosystème Hadoop, mais aussi de sa relative jeunesse.
Page 51 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2014 : le brouillard se dissipe, les datascientists émergent
En 2014, les entreprises devront dépasser le Hype Big Data
Cyrille Chausson, Rédacteur en Chef
Il existe actuellement beaucoup de bruit autour de l'analytique et du Big
Data, mais il est peu probable que toutes ces nouvelles technologies o pour
analyser les données aboutissent véritablement un jour. D'ailleurs parvenir à
différencier les tendances qui aboutiront de celles qui s'éteindront d'elles-
mêmes pourrait bien être la clé de la réussite pour 2014 lorsqu'on aborde
ces deux technologies.
L'une de ces tendances les plus à la mode (ou « hype » comme l'indique
Gartner), dont le développement a débuté en 2013 est celle des
applications qui permettent d'exécuter des requêtes SQL sur des systèmes
Hadoop. Plusieurs éditeurs ont adopté cette stratégie comme Cloudera
avec Impala, Pivotal avec HAWQ et Splunk avec Hunk et les professionnels
du monde de l'analytique ont montré un certain intérêt. Toutefois, indique
Merv Adrian, analyste chez Gartner, ce type d'applications pourrait frustrer
de nombreuses entreprises en 2014.
Page 52 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Selon lui, les applications « SQL-on-Hadoop » ont certes la capacité à tenir
leurs promesses, mais globalement le concept est trop novateur pour avoir
un véritable impact. Et surtout, de nombreuses applications seront
confrontées à des problèmes de performances. Des problèmes qui
pourraient provoquer un rejet de la part des utilisateurs avant la fin de
l'année. D'une façon générale, ces outils sont nouveaux, immatures, et il est
probable qu'ils déçoivent les utilisateurs lorsque leurs limites auront été
comprises », résume-t-il.
Le problème de base est que l'effet de mode a dépassé la réalité. Les outils
de type SQL-on-Hadoop ont certes un rôle à jouer, mais il pourrait bien être
plus limité que celui envisagé par les entreprises. Le buzz autour de Hadoop
est très important, et de nombreux utilisateurs inexpérimentés pensent
pouvoir tout faire avec le framework. Il suffit d'intégrer une technologie
performante, familière auprès des professionnels de l'analytique à SQL pour
que cela provoque inévitablement un important buzz. Adrian soutient que
les utilisateurs devront alors avoir une compréhension plus globale et
réaliste des limites de ces outils, et ce dans l'année.
Pas de pertinence pour l'analytique dans l'Internet des objets
Autre tendance technologique susceptible de décevoir les professionnels de
l'analytique en 2014, l'Internet des objets. Ce concept, qui correspond
principalement à la connexion d'appliances, comme les équipements de
production ou les compteurs, à Internet, n'est pas associé avec le monde de
Page 53 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
l'analytique et de la Business Intelligence. Cela représente pourtant un vrai
potentiel en matière de données,susceptible d'alimenter des modèles
analytiques et améliorer ainsi les capacités de reporting des entreprises
concernées.
Pourtant, William McKnight, de chez McKnight Consulting Group reste
pessimiste sur le potentiel BI de l'Internet des objets. Il ne remet pas en
cause le fait que relier les systèmes domestiques, les terminaux de
navigation et les équipements de production à Internet générera une
richesse évidente en termes de données. Mais relier toutes ces données
entre elles est un autre débat. « Connecter les objets entre eux et donner du
sens à ces imbrications avec de la BI, qui nécessite une planification
descendante, sera un des thèmes des années futures », assure-t-il.
Décortiquer le hype « Big Data »
Sans aucun doute, aucune autre tendance dans le monde analytique n'a été
plus à la mode en 2013 que le Big Data. Mais l'intérêt qui est porté à ce
concept est aussi source de polémique. Le "hype" autour du Big Data serait
entretenu par les médias et le marketinf des constructeur même si pour
certains il est aussi l'illustration de la puissance derrière le concept.
Pour Tony Cosentino, analyste chez Ventana Research, tout dépend de la
façon dont on l'utilise. Selon les études de son cabinet, l'intérêt dans les
systèmes Big Data continue de grandir chez de nombreuses entreprises.
Page 54 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Toutefois, le potentiel offert par la technologie a dépassé les structures de
gouvernance et les employés ne sont pas toujours préparés à insérer le Big
Data dans leurs activités quotidiennes. Le Big Data pourrait potentiellement
avoir un impact important, mais seulement si les bons processus sont mis en
place.
« Le Big Data a tout du terme très à la mode, mais les entreprises en 2014
ont la possibilité de minimiser les risques et de créer de la valeur en alignant
mieux les processus et leurs effectifs sur de nouvelles sources d'information
et des technologies innovantes déjà disponibles sur le marché, affirme-t-il.
Que le Big Data soit ou pas une tendance hype reste encore de la
responsabilité des utilisateurs, ajoute Tony Cosentino. La technologie a
montré son potentiel. Mais elle devra être utilisée à bon escient pour survivre
à 2014.
Page 55 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Big Data : le concept de mieux en mieux compris, les projets en production à la hausse
Cyrille Chausson, Rédacteur en Chef
Non seulement les entreprises comprennent mieux le Big Data , mais elles
commencent également à structurer leur usage. C'est une des conclusions
que l'on pourrait tirer de deux études publiées séparément en ce début
2014, l'une réalisée par JasperSoft auprès de sa communauté d'utilisateurs -
très aguerris à la problématique Big Data et à leur usage dans l'analytique
notamment - , et l'autre émanant du très populaire cabinet d'analystes
Gartner. Le Big Data sort quelque peu de l'ombre pour prendre forme dans
des projets concrets, faut-il ainsi comprendre.
Ainsi, si l'on en croit les chiffres récupérés auprès de la communauté
Jaspersoft (1 600 utilisateurs dont 60% de développeurs), la compréhension
du phénomène Big Data, et de ses implications sur le modèle économique,
se seraient nettement améliorés l'année dernière, déclenchant, par effet
direct, la mise en place de réels projets financés par les entreprises - et
donc supportés par le management. Rangeant ainsi le Big Data aux côtés
des technologies plus matures, capables d'attirer l'attention des DSI, pour la
production - et non plus uniquement pour de simples prototypes.
Page 56 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Ainsi, note Jaspersoft, sur la totalité des répondants à l'étude, 36% affirment
bénéficier « d'une initiative Big Data financée ». Ils n'étaient que 17% il y a 17
mois. Autre signe d'avancée notable du concept dans les entreprises, elles
ne sont plus que 27% à citer l’incompréhension comme frein au déploiement
de projets Big Data, soit une baisse de 49% depuis la précédent étude,
rapporte encore l'éditeur spécialisé dans le décisionnel. Elles ne sont
d'ailleurs que 20% à ne pas entrevoir de cas d'usage concrets des données
issues des Big Data - contre 56% en août 2012.
Hausse de l'engagement dans les projets
Mieux encore, sur les 56% des répondants ayant initié un projet lié au Big
Data, 32% sont en phase de développement et de déploiement, alors que
23% parlent encore de « phase de planification ». Au total, sur la totalité des
utilisateurs Jaspersoft ayant répondu, il apparait encore que 42% n'ont
abordé le concept du Big Data que lors d'expérimentation ou de recherche,
souligne toutefois l'étude, sous-entendant qu'il reste encore du chemin à
parcourir, tout en pointant un mieux certain.
Autre indicateur clé de cette étude : à 48%, c'est analyse de la clientèle qui
truste actuellement les cas d'usages des Big Data chez la communauté des
utilisateurs JasperSoft. Pour 45%, il s'agit de l'analyse d'expérience. Puis
suivent des usages très portés sur la sécurité et la protection de l’entreprise
: 37% des usages portent sur l'analyse des risques, 30% des menaces et 28
% de la conformité. Quelque 22% citent également l'analyse des fraudes.
Page 57 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Pour 26%, le Big Data trouve son utilisation dans l'optimisation de
campagnes et 23% dans le câblage localisé.
Et en France, les entreprises seraient tout aussi réceptives, nous confirme
Georges Carbonnel, Responsable Grands Comptes chez Jaspersoft, dans
un email envoyé à la rédaction. « Nous voyons de plus en plus d'intérêt pour
le Big Data et de plus en plus de projets en France. La tendance est
extrêmement similaire à celle des Etats-Unis. Les nouvelles technologies Big
Data les plus utilisées sont MongoDB et Hadoop. Un fort pourcentage de
ces projets tourne autour de la relation client et la capture et l'analyse
d'informations nouvelles notamment en provenance du web et des réseaux
sociaux », indique-t-il. Plus globalement, il note « un intérêt de plus en plus
poussé dans des domaines de plus en plus variés (de l'e-Commerce à
l'Industrie en passant par le high tech) ». Un début de maturité en somme.
Le Chief Data Officer progresse dans les entreprises
Il est ainsi ainsi logique que les entreprises réfléchissent à structurer
concrètement le phénomène et commencent très concrètement à recruter
des spécialistes de la donnée. Si la pénurie de profils liés aux technologies
Big Data revient sur les lèvres de tous les observateurs du secteur, Gartner
a de son côté recensé plus de 100 Chief Data Officer (CDO - un
responsable des données) dans des entreprises mondiales, et plus
particulièrement dans le secteur des banques, des assurances et dans le
secteur public. Le cabinet a également constaté les premiers recrutements
Page 58 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
significatifs dans le secteur de la publicité en 2013. Signe d'une démarche
qui se propage. D'ailleurs, en 2015, prévoit Gartner, quelque 25% des
grandes entreprises dans le monde auront recruter des CDO.
Article suivant
Page 59 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
7 questions à Franck Bardol, Data Scientist
Cyrille Chausson, Rédacteur en Chef
Avec une formation initiale en gestion d’entreprise et en économétrie
statistique, Franck Bardol est venu au métier de Data Scientist. Avec un
profil mixte entre ingénieur de développement et analyste quantitatif, il est
devenu consultant auprès des banques et des services financiers. Il est
également co-organisateur d’une rendez-vous mensuel, animant ainsi une
communauté d’experts de cette précieuse science des données.
LeMagIT : Comment décririez-vous le métier de Data Scientist ?
Franck Bardol : Il s’agit d’un profil multi-casquette qui nécessite plusieurs
compétences. La première compétence est la programmation pour pouvoir
programmer ses propres algorithmes. Puis arrivent les statistiques et les
mathématiques. Pour utiliser les modèles mathématiques et exploiter les
librairies pour la Data science, il faut tout de même avoir quelques notions
d’un niveau de première à troisième année de Fac. A cela s’ajoute un peu
d’intuition et du temps. Car on procède sur le mode essai - erreur. Cette
profession repose sur une dimension très empirique [¦]
Page 60 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Les demandes seront différentes en fonction du profil de Data Scientist. On
trouve par exemple beaucoup de mathématiciens et de physiciens qui se
reconvertissent dans la science des données. On peut leur demander de
concevoir l’algorithme, depuis le modèle mathématiques puis tous les
enchaînements informatiques qui s’y greffent. Celui qui utilisera cet
algorithme aura un profil différent.
Pour se dire Data Scientist, il faut avoir plusieurs casquettes. Celui qui
n’aurait qu’une seule de ces casquettes, ne pourrait pas prétendre à cela. Il
s’agit davantage d’un assemblage de compétences hétéroclites. Pour moi, la
Data Science est une science inductive, une science de l’empirisme. On part
des data et ce sont elles qui vont fournir le modèle. On cherche des
corrélations et des structures qui existent au sein de la donnée. Une fois que
l’on a trouvé ces corrélations, le Data Scientist ne vas pas forcément
essayer de les expliquer. On va essayer de les réutiliser de façon à réaliser
des prédictions.
LeMagIT : L’analyse est donc le travail d’une autre personne ?
Franck Bardol : Pas forcément. Le Data Scientist a construit le modèle
mathématique et réalisé des prédictions - est-ce que le client, lors d’une
prochaine itération, va rester fidèle ou alors partir ? Va-t-il acheter ou non,
par exemple . Il connait le modèle, mais ensuite il y a de grande chance que
ce modèle soit davantage entre les mains avec un profil de business
developer ou lié encore au Marketing. Sur un axe davantage orienté métier.
Page 61 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
LeMagIT : Avec cette spécificité où s’enchevêtrent plusieurs profils, la
formation semble être nécessaire. Où en est-elle ?
Franck Bardol : Des formations commencent à se mettre en place. J’en ai
moi-même suivi une, via le CNAM, en traitement de l’information. De
nombreuses écoles d’ingénieurs s’y mettent également, comme Mines
ParisTech, l’Ensimag (un cursus est prévu pour l’an prochain), plutôt orienté
Big Data. Plus tourné vers le business, HEC Paris a également sorti un
cursus. La première promo devrait sortir cette année. D’autres sur le modèle
prédictif sont également en cours.
LeMagIT : Dans le cadre de vos prestations aux entreprises, rencontrez-
vous d’autres Data Scientists ou s’agit encore d’une denrée rare ?
Franck Bardol : Je n’en rencontre pas énormément dans les entreprises.
C’est plutôt lors de rendez-vous, comme celui que j’organise [il s'agit de la
rencontre organisée par le Paris Machine Learning liant entrepreneurs,
chercheurs et développeurs, NDLR] où , pour le moment, nous pouvons en
rencontrer, plutôt que dans une entreprise lambda. A part chez de grands
noms, comme Google, où on peut trouver un étage complet de data
scientists. En France, ce n’est pas encore le cas.
Page 62 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
LeMagIT : Existe-t-il aujourd’hui des secteurs d’activités plus actifs que
d’autres en matière de Data Science ?
Franck Bardol : Les services financiers et les assureurs y sont entrés
différemment. Les premiers par les systèmes de trading et les seconds par
la détection de fraudes. C’est par ces biais qu'ils ont intégré la data science
à leur processus. La sécurité sociale et Pôle Emploi sont également très
intéressés par la détection de fraudes, pour identifier les faux profils. Ils ont
mis en place des algorithmes pour répondre à ces problématiques. Au
départ, il sont venus à la Data Science sous la forme de Business
Intelligence traditionnelle, reposant sur des entrepôts de données et de
l’ETL, associé à l’intervention d’un analyste business. Mais l’arrivée de la
Data Science et du Big Data est en train de révolutionner le secteur et de
rendre quelque peu désuètes les anciennes méthodes.
Tous les domaines sont impactés par les Data Scientists. Dans la voyage
(par exemple chez Amadeus), pour déterminer, par exemple, le meilleur
moment de la journée pour changer le prix du billet. Dans les télécoms, j’ai
participé à l’élaboration d’un modèle prédictif où l’on a intégré toute l’activité
client d’un opérateur (combien de temps téléphone-t-il, à qui il téléphone,
est-ce qu’il téléphone à l’international, téléphone-t-il à un service client). A
partir de son profil, on parvient à déterminer à 95% de réussite s’il va quitter
l’opérateur ou pas.
Page 63 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
LeMagIT : Voyez-vous les modèles économiques se modifier autour de la
donnée ?
Franck Bardol : Complètement. De nouveaux modèles économiques
commencent à émerger. Souvent auprès des start-ups, qui adoptent le
modèle Freemium. De nouveaux usages autour de la donnée apparaissent.
Les entreprises vont se rendre compte que les Data Scientists peuvent
résoudre certains problèmes, mais également participer à l’élaboration de
nouveaux services autour de la donnée. Les entreprises vont de plus en plus
comprendre ce qu’on peut en faire. Les décideurs et les entrepreneurs vont
mieux appréhender les cas d’usage.
LeMagIT : Quel est aujourd’hui le niveau de l’outillage du Data Scientist ?
Franck Bardol : Les outils sont aujourd’hui essentiellement Open Source. Il y
a 3 ou 4 ans, il fallait tout recoder soi-même sur des logiciels très chers et
coder l’algorithme. C’est aujourd’hui terminé. On trouve de bonnes librairies
Open Source, comme scikit-learn, développée par des Français. Vous
l’intégrez dans votre programme et vous pouvez directement utiliser des
outils de Data Science. On trouve également des Web Apps, comme
BigML.com. Cette application Web construit votre modèle. Vous devez juste
Page 64 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
lui donner en entrée vos données et vous lui indiquez les prédictions que
vous souhaitez réalisez. Il fait le travail du Data Scientist.
Article suivant
Page 65 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2015 : Architecture et infrastructure
Hadoop : les projets qui ont le vent en poupe
Cyrille Chausson, Rédacteur en Chef
Il est celui par lequel Hadoop est venu. Doug Cutting, créateur du framework
clé du Big Data, aujourd’hui architecte en chef de Cloudera, est revenu avec
la rédaction sur les rapports de la société avec Intel, les projets qui montent
dans la sphère Hadoop et sur les cas d’usages. Echanges avec ce géant du
Big Data.
"Nous investissons dans Spark pour qu'il soit parfaitement
intégré à l’écosystème"
LeMagIT : Quels sont les projets Hadoop qui ont retenu votre attention et
sur lesquels vous travaillez au sein de Cloudera ? "
Doug Cutting : Nous essayons de réduire l’écart entre ce que propose le
projet Open Source Hadoop et ce dont les entreprises ont véritablement
besoin. Et dans tous les cas, cela signifie pour nous d’investir encore
Page 66 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
davantage dans l’Open Source et continuer à intégrer des nouveaux projets
à la plateforme.
Mais tout en ajoutant des composants en dehors de la communauté Open
Source, notamment en matière d’administration. Au final, nos clients voient
de la valeur là où ils sont aujourd’hui limités.
Nous investissons également dans des technologies comme Spark (NDR :
un moteur alternatif à MapReduce qui ne se limite pas au batch) afin que ce
projet soit parfaitement intégré au reste de l’écosystème.
Nos clients voient de la valeur là où ils sont aujourd’hui limités
Nous avons travaillé sur la sécurité, qui est un élément clé. Il s’agit de
s’assurer que les données soient bien chiffrées à tous les niveaux, y compris
dans Spark. La sécurité est un élément critique pour aider les entreprises à
adopter Spark dans des industries très réglementées.
Spark est un excellent projet, mais sans fonctions de sécurité, il n’est pas
très utile. Nous travaillons également à en faire un backend pour Hive (NDR :
technologie permettant de faire des requêtes de type SQL sur un cluster
Hadoop dans un contexte de Datawarehouse) pour créer un moteur SQL
batch optimisé et cela sera intégré très prochainement à notre plateforme.
Page 67 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Des travaux autour de Kafka (NDR : bus de messages) sont également en
cours.
LeMagIT : Quels sont aujourd’hui vos rapports avec Intel ?
Doug Cutting : Les orientations que nous poussons sont aussi le fruit de
notre collaboration avec Intel. Tout l’écosystème doit bien fonctionner sur
les nouveaux hardwares Intel au moment de leur sortie. Ils partagent leur
roadmap avec nous afin d’être sûr de la compatibilité avec les capacités
hardware.
Le checksum a déjà été intégré, ainsi que le chiffrement de fichiers. Nous
travaillons également sur les nouveaux systèmes de mémoire d’Intel. Nous
avons accès aux versions en avance de phase pour nous assurer qu’Hadoop
fonctionnera de pair avec ces nouvelles fonctions. C’est l’objectif de notre
collaboration avec Intel.
Si vous êtes une société comme Intel et que vous passez beaucoup de
temps à investir sur le hardware, vous avez la volonté que ce hardware
puisse véritablement être utilisé et créer de la valeur immédiatement.
LeMagIT : Intel développait à l’origine sa propre distribution Hadoop.
Cloudera a-t-il rapproché ces développements de sa plateforme ?
Page 68 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Doug Cutting : Absolument. Les travaux portant sur le chiffrement au repos
des données dans HDFS ont été réalisés par Intel. Nous collaborons
désormais avec leurs équipes de développement. Leurs travaux ont été
intégrés à CDH ainsi qu’au cÅ“ur Open Source d’Hadoop.
Les différentes briques de CDH, la distribution Hadoop de Cloudera
Pour l’essentiel, la distribution d’Intel a été intégrée, y compris la possibilité
d’optimisation avec le hardware du groupe, le chiffrement et un certain
nombre d’autres fonctions. Nous permettons aussi aux clients de la
distribution Intel de devenir facilement client Cloudera.
LeMagIT : Cela illustre-t-il un point de départ pour Cloudera. Devrions-
nous assister à d’autres partenariats clés avec l’industrie du hardware,
notamment avec le monde ARM, de plus en plus actif dans le domaine
des serveurs ?
Il est fort probable que nous supportions
l'architecture ARM
Doug Cutting : Il est fort probable que nous supportions cette architecture.
Je ne pense pas que nous ayons encore été approchés.
Page 69 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Nous sommes des partenaires de longue date de HP, Dell et Oracle via une
série d’appliances. Nous collaborons également avec Teradata, Amazon et
Microsoft.
Nous essayons de nouer des partenariats avec autant de sociétés que nous
pouvons. Ce que nous faisons est complémentaire de ce que font ces
fournisseurs de technologies.
LeMagIT : Cela aide-t-il Cloudera à être plus près des vrais besoins des
entreprises ?
Doug Cutting : Cela nous aide à proposer de meilleurs produits et mieux
nous intégrer avec le hardware. Avoir Intel comme partenaire nous ouvre
également beaucoup de portes. En théorie, ils vendent des puces, mais Intel
dispose de nombreuses connexions dans l’industrie. Ils forment un canal clé
pour nous.
Ils nous ont ouvert le marché en Chine, car le groupe y était déjà présent.
Cela va donc bien au-delà de cette collaboration autour du hardware. Ils
sont également des utilisateurs d’Hadoop en interne et nous donnent des
retours pour améliorer la plateforme. Il s’agit d’un cercle vertueux pour
optimiser également les puces d’Intel.
LeMagIT : Vous avez cité précédemment des projets qui montent dans la
sphère des technologies Hadoop, comme Spark, Storm (outil de Complex
Page 70 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Event Processing) ou Kafka. Des projets complémentaires à Hadoop.
Pensez-vous que ces projets finiront à terme intégrés au cÅ“ur Hadoop ?
A terme, Spark remplacera MapReduce
[mais] Hadoop et Spark ne fusionneront
pas
Doug Cutting : Nous créons une distribution à partir du cÅ“ur Open Source
d’Hadoop. Nous devons donc sélectionner les composants pour lesquels
nous allons proposer du support et dans lesquels nous allons investir. Il
s’agit d’une opération délicate.
Parfois, nous devons anticiper ce que pourrait être à terme la demande des
clients. Avec Spark, nous avons été des "early adopters" car nous pensions
que ce projet allait être utile. Un outil meilleur que MapReduce, capable de
supporter davantage d’opérations.
Nous devons également nous adapter lorsque des clients utilisent déjà une
technologie et souhaitent donc un support . Toutefois, nous ne devons pas
surcharger nos contributions. Nous ne pouvons pas supporter une centaine
de projets. Nous essayons de ne supporter que des projets dans lesquels
nous disposons d’une expertise et dans lesquels nos équipes peuvent
contribuer.
Page 71 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Les utilisateurs Linux ne maintiennent pas le Kernel. Ils utilisent une distribution. C’est pareil dans le monde Hadoop
Hadoop et Spark sont deux projets différents au sein de la fondation
Apache. Ils sont complémentaires et ne fusionneront pas. Spark peut aussi
s’exécuter en dehors d’ Hadoop.
Je ne pense pas que les fusionner apporte un quelconque gain. Ils sont
utiles en tant que projets séparés et autonomes. A terme, Spark remplacera
MapReduce. Ce dernier sera toutefois conservé dans certains cas.
Hadoop n’est jamais utilisé seul. La technologie est utilisée avec d’autres
outils. Personne ne télécharge Hadoop et l’exécute en l’état. Très peu de
personnes installent et maintiennent Hadoop directement depuis la
fondation Apache. A l’image des utilisateurs Linux qui ne maintiennent pas le
noyau Linux et ne chargent pas les paquets dont ils ont besoin. Ils utilisent
une distribution.
C’est pareil dans le monde Hadoop. Il existe ainsi plusieurs distributions,
dans un environnement concurrentiel sain.
LeMagIT : Quels sont les cas d’usages clé d’Hadoop identifiés par
Cloudera ?
Page 72 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Doug Cutting : Dans certaines industries, nous avons identifié des patterns
d’usage Big Data.
Dans les services financiers, on s’intéresse à l’évaluation des risques et à
avoir une vision temps réel de leur exposition au risque.
Nous avons identifié des patterns d’usage, ce sont les mêmes outils configurés de la même façon dans 90% des cas
Ce qui est critique pour eux mais qui est difficile à mettre en place. Mais il
existe des outils que l’on peut configurer d’une certaine façon pour réaliser
ces opérations. Nous pouvons désormais décrire cela et lorsqu’une banque
vient nous voir et a une problématique autour de l’évaluation du risque, nous
pouvons lui présenter une typologie de configuration, une sorte de blueprint.
Nous pouvons la généraliser.
La prochaine étape consiste à créer une application prête à être utilisée.
Nous n’en sommes pas encore là. Mais cela devrait arriver dans les
prochaines années. La détection de fraude est également un autre cas
d’usage. Encore une fois, ce sont les mêmes outils configurés de la même
façon dans 90% des cas. Ces solutions se sont généralisées cette année et
nous pouvons aider les clients à les reproduire.
Page 73 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Nous n’avons pas du code préconfiguré, mais une série de documentations
que nous pouvons fournir aux entreprises qui peuvent rassembler une
équipe compétente via nos services professionnels.
Nous utilisons cela également pour mener les développements du code
lorsque par exemple nous identifions une fonction qui manque et qui serait
très utile. Des nombreuses fonctions de sécurité ont été bâties en ce sens
dans Hadoop.
Page 74 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Les architectes Big Data, très sollicités en 2014
Cyrille Chausson, Rédacteur en Chef
2014 a été témoin d'une évolution en matière de développement et de
déploiement d'architecture Big Data. Les utilisateurs se sont en effet
devenus aguerris aux technologies NoSQL et autres alternatives aux bases
de données relationnelles. Quant à Hadoop 2, il s'est frayé un chemin dans
l'analytique opérationnel, au-delà du traitement en mode batch du
framework et de son caractère distribué.
L'intérêt pour les technologies Big Data a souvent été lié à la plate-forme
Hadoop 2, qui est apparu fin 2013. Cette version a déconnecté HDFS du
moteur et du modèle batch de MapReduce, portant ainsi Hadoop vers de
nouveaux usages, comme par exemple les requêtes interactives.
Beaucoup de bruits autour d'Hadoop et de Spark
Toutefois, la transformation des PoC en production n'a souvent pas eu lieu,
repoussant ainsi cette bataille à 2015.
Page 75 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Les architectes Big Data et autres responsables de la donnée ont
également été très occupés à tenter de se familiariser avec les nouveaux
moteurs de traitement In-Memory, désormais intégrés au sein des
traditionnelles bases de données relationnelles.
Pourtant, ici encore, les discussions autour du Big Data tournaient
essentiellement autour des alternatives non relationnelles - et il y a
beaucoup à dire. « Une fois la décision prise qu'une base de données SQL
monolithique n'était pas nécessaire, l'offre de technologies émergentes qui
peut être considérée est aujourd'hui abondante », souligne Joe Caserta,
fondateur et président du cabinet de conseil Caserta Concepts.
Ce bruit assourdissant autour d'Hadoop a toutefois été quelque peu atténué
par un autre phénomène Open Source : Spark. Le moteur de traitement
analytique fonctionne de pair avec Hadoop 2 pour accélérer les traitements
en mode batch, beaucoup plus rapidement qu'avec MapReduce.
Mais Spark a également attiré l'attention pour ses usages dans le monde
du Machine Learning, une autre tendance clé des douze prochains mois.
MongoDB, Couchbase, Aerospike : NoSQL devient une tendance lourde
MongoDB, Couchbase, Aerospike et bien d'autres : la litanie des bases
NoSQL a fortement résonné en 2014. L'apparition de nouvelle technologie
Page 76 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
NoSQL a rythmé le quotidien, comme l'a remarqué Michael Simone,
Directeur de l'ingénierie et de la plateforme CitiData chez Citigroup, à
l'occasion de la conférence MongoDB World qui s'est déroulée à l'été 2014.
NewSQL, la passerelle entre les mondes SQL et NoSQL
Ceci est révélateur d'une réalité : les déploiements NoSQL ont progressé
pour traiter des vastes quantités de données, souvent de nouvelles formes
d'information en provenance du Web, qui s'insèrent difficilement dans les
schémas très rigides des bases de données relationnelles.
Par exemple, les bases NoSQL ont parfois été utilisées comme Datastore en
mémoire pour faciliter les prises de décisions en temps réel à partir de
données marketing Web, pour alimenter un système de support technique
qui aident les opérateurs de centre d'appels à suivre l'activité d'utilisateur et
ainsi résoudre les problèmes techniques. Ou encore pour stocker des
données en vue d'analyser les tendances sur les media sociaux.
Parfois, certains responsables de la données ont opté pour des
technologies dites "NewSQL", dont l'ambition est de créer une passerelle
entre le meilleur des mondes SQL et NoSQL.
Page 77 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Bâtir le Big Data du futur : défi de 2015
L'intégration de ces outils Big Data aux architectures de données des
entreprises a aussi marqué 2014.
Construire un environnement où toutes les technologies
cohabitent a été une grosse difficulté en 2014
Vince Dell'Anno, Accenture
« La plus grosse difficulté en 2014 en termes de Big Data tient aujourd'hui à
l'architecture en elle-même - comment construire un environnement au sein
duquel toutes les nouvelles technologies cohabitent », explique Vince
Dell'Anno, Directeur de la gestion de l'information pour le secteur de la
Supply Chain chez Accenture.
Selon lui, une des principales difficultés pour les DSI sera de pouvoir gérer
des environnements hybrides, qui permettent à des milliers d'utilisateurs
finaux d'accéder à des données récentes.
En fait, élaborer des systèmes Big Data pouvant être dimensionnés et les
intégrer avec les entrepôts de données, avec les outils analytiques et avec
les outils opérationnels en place a été un thème central de 2014.
Page 78 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Parfois, les nouveaux outils ont poussé les administrateurs à renoncer à
leurs façons de travailler autour des schémas de données.
Hortonworks lève 100 millions de dollars en bourse en 2014
Sur le marché Hadoop, il reste de nombreuses terres encore
vierges
Tony Baer, Analyste chez Ovum
Comme un symbole de l'année, 2014 s'est également terminée par l'entrée
en bourse d'Hortonworks, l'un des pure-players des distributions du
framework Open Source.
La société, qui compte notamment HP à son capital, a levé 100 millions de
dollars dans cette opération. Ce qui semble plutôt modeste au regard des
fonds versés par les investisseurs durant l'année.
Mais pour Tony Baer, analyste chez Ovum, cette entrée en bourse était
davantage révélateur des perspectives autour d'Hadoop. « Il s'agit d'un
marché inexploré, les ventes sont toutes récentes avec peu de
concurrences », soutient-il. « Il reste de nombreuses terres encore vierges. »
Page 79 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
En 2015, d'autres acteurs du monde Hadoop et NoSQL devraient également
faire leur entrée sur les marchés boursiers américains.
Article suivant
Page 80 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Hadoop : MapR package trois scenarii d’usage
Cyrille Chausson, Rédacteur en Chef
MapR, l'un des pure-players du monde Hadoop, a profité de la conférence
Strata+Hadoop World qui s'est tenue la semaine dernière aux Etats-Unis,
pour déployer un peu plus sa stratégie : rapprocher Hadoop du monde des
entreprises. Dans ce cadre, la société a présenté ce qu'il baptise des kits de
démarrage Hadoop (MapR Quick Start) qui permet de déployer la
distribution MapR selon des scenarii définis. Une façon donc d'accélérer
l'adoption du framework Java d'une part, mais également de le porter au
plus des usages des entreprises.
Trois scénarri Big Data ont été identifiés par MapR : optimisation d'un
entrepôt de données avec Hadoop pour accroitre par exemple la capacité
de traitement ; renforcement d'un système de sécurité SIEM via une
capacité accrue d'analyse de logs ou d'incidents ; et mise en place d'un
moteur de recommandation, comme on peut le trouver chez nombre
d'acteurs du e-commerce.
Page 81 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Un parckage avec des bonnes pratiques
Ces scénarri correspondent à des versions de Quick Start (commercialisées
30 000 dollars chacune) et comprennent « des modules d'ingestion de
données, des gabarits de solutions, deux à quatre semaines de services
professionnels, une formation intégrée et un petit cluster Hadoop qui peut
être facilement étendu selon les exigences de la solution », explique MapR
dans un communiqué. L'éditeur affirme s'être appuyé sur des meilleures
pratiques.
Ces kits de démarrage Hadoop s'inscrivent dans une stratégie globale de
l'éditeur, qui depuis son origine a souhaité faciliter l'intégration d'Hadoop au
SI existant des entreprises. Cela passe ainsi par un système de fichiers
maison MapR FS, reposant sur NFS - plus commun en entreprise - mais
également par le biais de collaboration avec HP notamment autour de HP
Vertica Analytics Platform on MapR, ou dans la mise à disposition d'un bac à
sable Hadoop pour donner aux développeurs la possibilité de tester le
framework.
Page 82 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2016 : de plus en plus de projets et des enjeux de sécurité
Big Data Paris : l’heure des projets a (légèrement) sonné
Cyrille Chausson, Rédacteur en Chef
Une époque charnière. C’est ce que nous aurions pu retenir de ce premier
jour de l’édition 2016 du salon Big Data Paris , qui s’est ouvert aujourd’hui à
Paris. Si cet événement a pour vocation de réunir le gratin de l’écosystème
de la donnée en France côté fournisseurs et prestataires, il est également
marqué par un afflux important de partenaires, clients et prospects qui ont
confirmé leur venue. Les organisateurs attendent en effet quelque 10 000
personnes. Ils ont ainsi déplacé Big Data Paris vers la Porte Maillot,
délaissant le CNIT devenu trop exigu.
Il faut dire que le marché de la données en France, et par extension celui du
Big Data, connaît actuellement une progression révélatrice de l’avancement
des entreprises dans leurs projets. Selon une étude menée par le cabinet
Pierre Audoin Consultants pour le compte de GFI Informatique, révélée lors
de Big Data Paris, ce marché devrait connaître une croissance moyenne
annuelle de 9,6% jusqu’en 2019, pour représenter à cette date un marché de
Page 83 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
quelque 5 milliards d’euros. La moitié sera issue de projets Big Data en 2019,
rappelle encore l’étude, qui annonce de fait « un tassement » de l’analytique
traditionnel.
Et pour cause, entre 2015 et 2019, le marché des logiciels et services lié au
Big Data en France devrait progresser à un taux moyen de 35% par an. Le
Big Data devient le segment cœur pour le marché de la donnée ; symbole
d’une prise de conscience des entreprises, révèle clairement cette étude de
GFI.
Le Big Data s’immisce progressivement au cœur des innovations pour
s’installer soit au sein des SI, soit à la périphérie…Mais bien au cœur des
activités et des métiers. Aujourd’hui note encore l’étude, 56% des
entreprises sondées dans le cadre de cette étude (220 entreprises ont
répondu) affirment que la donnée occupe une dimension critique de leur
activité. Elles étaient 32% jusqu’alors. Elles devraient être 74% dans 2 ans.
Autre donnée clé, les deux tiers des projets de transformation numérique
sont réalisés autour de la donnée.
« Nous assistons enfin au passage du point d’inflexion tant attendu en
France », écrit d’ailleurs Alvin Ramgobeen, directeur des practices BI et Big
Data, chez GFI Informatique, citée dans l’étude. L’ère des PoC (Proof-of-
concept) semble passée; l’heure est aux projets concrets et au passage en
production, selon lui.
Page 84 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Le datalake, l'usage le plus courant en France
Si les entreprises françaises ont dépassé le stade du PoC, elles ont d’abord
opté pour la mise en place de lacs de données («Datalake»). Cela est vrai
pour 60% des entreprises répondantes. Si certes cette démarche est
facilitée avec une baisse des coûts du stockage (Hadoop fonctionne sur des
serveurs de commodité), il apparaît également que ces lacs de données
sont initiés par la DSI avec un périmètre fonctionnel le plus ouvert possible.
Comprendre sans cas d’usage spécifique de prime abord. Mais l’idée est
bien de créer une fondation technologique pour faire émerger les
applications côté métier. « Ces lacs de données sont initiés par la DSI, puis
elle attend de voir ce que cela va donner. On ne part pas sur une démarche
spécifique, mais sur une vue unifiée des données. Il s’agit là de préparer le
terrain aux métiers », explique Olivier Rafal, analyste principal chez
PAC. Les usages viennent donc des métiers par la suite.
Un point que rejoint d’ailleurs Patrick Darmon directeur Big Data de Keyrus,
présent lors de l’événement : « Le lac de données ressemble au traditionnel
entrepôt de données. Et cela évite de se poser trop de questions. Avec un
lac de données, la DSI est au rendez-vous des métiers ». Et d’ajouter : « 80%
des PoC Big Data sont faits à partir de PoC pour des usages de Data
Science, car cela a un rapport étroit avec le métier. »
Page 85 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
« Les entreprises n’ont plus besoin de PoC pour savoir que le Big Data
fonctionne, sauf dans certains projets , comme par exempe la mise en place
de clusters Hadoop dans le Cloud », ajoute Olivier Rafal « Elles ont compris
que cela fonctionne sur des cas d’usages bien identifiés. » Création de
nouveaux services, optimisation de l’activité et surtout affinage de
propositions commerciales sont ici cités comme des cas d’usage qui tirent la
croissance en France. Ils sont les plus courants.
Une industrialisation qui n’est pas systématique
Reste pourtant que tout n’est pas si rose. Si la transformation des PoC n’est
pas systématiquement au rendez-vous, un effet de levier a bien été aperçu,
nuance Patrick Darmon. « On savait que 2015 était une année de PoC. On
pensait que pendant tout 2015, on commercialiserait des PoC et des
cadrages. Cela n’a pas manqué. Il y a eu beaucoup de PoC chez des
entreprises où cela se justifiait et chez d’autres qu’on ne voit généralement
pas dans le monde du Big Data – elles ont par exemple peu de données.
Tout le monde s’est essayé au Big Data en 2015 », commente-t-il.
A cela s’est ajouté 2 réflexions complémentaires à la fin 2015, poursuit-il. Si
certaines entreprises continuent le mode PoC, il est apparu « une montée en
compétences des équipes, tant métier que DSI ». Cela apparait surtout chez
Page 86 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
les grandes entreprises, qui s’organisent pour cela. « On constate aussi qu’il
y a une porosité entre le SI et le métier qui est de plus en plus forte. Car la
technologie n’est pas encore suffisamment abordable (user-friendly) ».
Autre tendance aperçue en fin d’année dernière : l’industrialisation, même
légère. « Les entreprises ont réalisé un ou plusieurs PoC, ont obtenu ainsi un
résultat. Elles s’interrogent donc sur la façon de généraliser », constate-t-il.
Et cela peut alors passer par la mise en place d’un projet de Big Data. Mais
pas systématiquement.
Chez Keyrus par exemple, la part de revenus de Keyrus porté par le Big
Data en France est de l’ordre de 7-8%, assure Patrick Darmon. « Cela a
décollé et reste révélateur du marché : beaucoup de PoC et peu
d’industrialisation. » Si d’évolution il s’agit bien, les déploiements généralisés
se font encore un peu attendre.
Page 87 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Big Data : des technologies au service des DRH
Florence Puybareau, journaliste
Big Data et RH restent encore rarement associés. En effet, lorsque l'on
évoque l'exploitation des données massives - structurées et non
structurées-, c'est plutôt pour une finalité marketing, commerciale ou
technique.
Et pourtant, il y a de vraies opportunités pour les DRH à utiliser le Big Data.
D'abord parce qu'en interne, elles possèdent énormément de données
concernant les salariés (coordonnées, évolution de carrière, plan de
formation, compte rendu d'entretien annuel, participation à des activités
organisées par l'entreprise...). Des données encore trop souvent peu ou mal
exploitées.
A cela s'ajoutent toutes les informations qu'il est possible de récupérer à
l'extérieur sur les réseaux sociaux et autres CVthèques. Jérémy Harroch est
PDG de Quantmetry, une société qui accompagne les entreprises dans leur
stratégie Big Data. Il identifie quatre sujets qui peuvent être portés par la
DRH : « En premier lieu, le Big Data va être utilisé pour mesurer le coût du
Page 88 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
turn over. Quand un collaborateur part, il faut un moment pour former son
successeur et pendant ce temps là, le business n'avance pas de la même
façon. Pour les entreprises, ces coûts cachés peuvent être énormes mais
elles ne sont pas capables de les quantifier ».
Distinguer les signaux faibles
Le deuxième élément concerne le sourcing, c'est-à- dire la capacité à
identifier les nouveaux métiers : « les DRH ne connaissent pas ces nouvelles
fonctions. Elles ont beaucoup de difficultés à faire des fiches de poste. Le
Big Data peut les accompagner dans les critères d'évaluation ».
Troisième point, peut être l'un des plus difficiles ; ce que Jérémy Harroch
appelle les critères de verbatims. « C'est la capacité à interpréter une
carrière non pas à l'issue d'un entretien annuel mais année après année sur
le long terme. En général, les verbatims sont archivés mais ne sont plus
utilisés. Or, cela peut permettre de détecter des signaux faibles, expliquer
par exemple la démotivation de certains collaborateurs ou leur envie de
changement. »
Enfin dans un grand groupe qui doit gérer une importante masse salariale
dans différents pays, le Big Data peut permettre de mieux associer des
compétences à des personnes et d'avoir une politique salariale plus
cohérente.
Page 89 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
D'autres experts voient dans le Big Data un moyen pour les DRH de mieux
cibler leurs recrutements et de vérifier, souvent via les réseaux sociaux, si le
candidat va être en phase avec la culture de l'entreprise.
Beaucoup d'opportunités donc s'offrent aux DRH avec le Big Data, mais
regrette Jérémy Harroch : « ce sont rarement les DRH qui portent ces
projets. Plutôt les directions marketing et les responsables des datas. Les
DRH se contentent encore trop souvent d'être les clients de ces entités ».
Article suivant
Page 90 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Le Big Data apporte son lot de menaces spécifiques
Valéry Marchive, Rédacteur en chef adjoint
C’est ce mardi 2 février que l’Agence européenne pour la sécurité des
réseaux et de l’information (Enisa) organisait avec Telefonica, à Madrid, un
atelier dédié aux défis de sécurité et de confidentialité du Big Data. Et celui-
ci apparaît comme la continuité naturelle d’un rapport général sur les
menaces affectant ces environnements, publié fin janvier.
Dans celui-ci, l’Enisa souligne en particulier que les risques accrus liés à
l’important niveau de réplication des données dans les environnements Big
Data, ainsi que « la fréquence de l’externalisation des traitements »,
potentiellement sources « de nouveaux types de brèches, de fuites et de
menaces de dégradation de données ». Et cela sans compter la création de
données additionnelles, par les liens entre les données originelles, à
l’occasion de la préparation de traitements massivement parallélisés.
Surtout, pour l’agence, les différents acteurs de la chaîne de traitement Big
Data “ « propriétaires de données, transformateurs de données, opérateurs
de traitements et fournisseurs de services de stockage » “ sont susceptibles
d’avoir des intérêts divergents, voire en conflit les uns avec les autres. Le
Page 91 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
tout aboutissant à « un écosystème complexe où les contre-mesures de
sécurité doivent être précautionneusement planifiées et mises en place ».
Dans ce contexte, l’Enisa reconnaît les bénéfices que peuvent apporter les
pratiques de référence en matière de sécurité, mais elle encourage surtout à
appliquer « le principe de sécurité-par-défaut » consistant à intégrer les
questions de sécurité dès les premières étapes de la réflexion.
De quoi, en définitive, renvoyer à d’autres sujets technologiques encore
jeunes, comme l’usine connectée dite 4.0. Lors d’une table ronde organisé
au Forum International de la Cybersécurité, fin janvier à Lille, Eric Weber,
responsable du pôle produits de sécurité de Thales C&S, soulignait ainsi
l’importance de penser la sécurité dès la conception, pour éviter d’en faire
un facteur de coût à posteriori : « les choses déjà déployées sont très très
difficiles à sécuriser », relevait-il alors.
Page 92 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2016 : de plus en plus de projets et des enjeux de sécurité
Les conteneurs : une clé des déploiements de Spark et Hadoop en production
Jack Vaughan, News and Site Editor
Si les projets Spark et Hadoop en place dans les entreprises ont donné
satisfaction lors de phases pilotes, ou au sein de projets de taille réduite,
leur passage en production, pour armer les analystes et autres data
scientists, reste aujourd’hui véritablement difficile. Pour nombre
d’entreprises, cela représente même un obstacle dans leur quête du Big
Data.
La complexité des processus de configuration est souvent citée comme le
premier obstacle. Il est souvent difficile et très long de re-créer un
prototype, à façon, développé par un data scientist dans son coin. Et bien
souvent, cela rime avec échec lorsqu’il est partagé auprès d’un groupe
d’utilisateurs bien plus large. Pour résoudre ce problème, certains misent sur
les microservices, les conteneurs et autres pratiques DevOps, pour
assembler leurs composants Spark et Hadoop.
Page 93 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
« Nos équipes de data scientists et nos métiers ne veulent pas attendre des
jours voire des semaines, le temps que nous configurions un nouveau cluster
Spark ou un environnement Big Data avec tous les outils, les bonnes
versions et les bonnes configurations et bien sûr, les bonnes données »,
affirme Ramesh Thyagarajan, directeur de The Advisory BOard Company,
une société américaine de conseil, spécialisée dans l’analytique pour le
secteur de la Santé.
Ce spécialiste considère les conteneurs Docker comme un levier pour une
plus grande agilité des data scientists et des utilisateurs métier.
Pour ses déploiements dans le style DevOps, Advisory Board s’appuie sur la
plateforme EPIC de BlueData Software pour exécuter Spark SQL et Spark,
ainsi qu’Apache Zeppelin (une interface Web pour analyser des données
depuis Spark). « Pour nous, tout est question d’agilité et d’accélération de
l’innovation », explique-t-il, soulignant l’architecture en conteneurs de la
plateforme de BlueData Software.
Cette plateforme permet la mise en place de clusters Spark à la demande,
manipulables par les data scientists et les analystes, masquant ainsi la
complexité des configurations induites par de tels déploiements.
Son équipe a d’ailleurs développé son propre framework pour porter les
données vers HDFS. Résultat, les clusters Spark s’appuie sur une seule
Page 94 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
source de données. Une telle centralisation est importante. « C’est la seule
façon de supporter plus de 400 utilisateurs et leurs clusters. »
Conteneurs et Big Data : un mariage qui n’est pas consommé
L’usage de conteneurs dans les environnements Big Data est encore rare.
Les clusters Spark ont principalement été déployés sur des clusters bare-
metal, soutient Tom Phelan, co-fondateur et architecte en chef à BlueData,
et un vétéran de l’industrie de la virtualisation. Cela rime avec des
configurations ardues et des implémentations statiques difficiles à modifier,
a-t-il précisé dans une présentation lors du Spark Summit East 2017.
Selon lui, l’implémentation de conteneurs peut certes être effectuée par du
scripting manuel, mais cela devient plus difficile dans les environnements Big
Data qui cumulent les composants. Aujourd’hui, poursuit-il, Spark ne
correspond souvent qu’à une partie de workloads complexes et orchestrées
qui ne peuvent pas être adaptées facilement aux conteneurs. « Vous devez
vous frayer un chemin dans une jungle de gestionnaire de conteneurs », a-t-
il expliqué aux participants de la conférence, ajoutant que c’est justement un
des problèmes auxquels BlueData tente d’apporter une réponse.
Page 95 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Une réponse au dimensionnement
Selon Tom Phelan, les dernières mises à jour de la plateforme BlueData
ciblent justement les besoins des data scientists qui utilisent Spark, comme
ceux cités plus haut par Advisory Board. Dans sa dernière version, la
plateforme supporte les outils Spark, comme Jupyterhub, RStudio Server et
Zeppelin, en tant qu’images Docker pré- configurées. L’objectif est
d’apporter plus d’agilité, et de DevOps aux data scientists.
Ces méthodes liées aux conteneurs et aux microservices sont en fait un
moyen pour automatiser un peu plus d’aspects du déploiement
d’applications. Elles représentent d’ailleurs souvent une réponse au
dimensionnement et à l’élasticité des applications. Cela permet aux
administrateurs de provisionner et de dé-provisionner des ressources au
rythme des workloads.
Les conteneurs sont de plus en plus courants dans le Cloud Computing ainsi
que dans les implémentations on- premise. Une tendance que Spark et
Hadoop pourraient suivre, si leur usage est voué à grandir dans les
entreprises.
Page 96 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Hadoop en self-service : la prochaine étape du Big Data
Jack Vaughan, News and Site Editor
Si la sphère des technologies Hadoop s’est quelque peu transformée,
étendant le framework distribué vers de nouveaux usages, son utilisation
reste toutefois plombée par la nécessité de disposer de compétences très
spécialisée.
Mais, cela pourrait bientôt changer. Initialement cantonné à un style
particulier, centré sur MapReduce et HDFS, des formules apparaissent pour
pouvoir se passer de l’un de ces composants : Hadoop dans le Cloud est en
effet en plein essor. Et les fournisseurs de technologies tentent de se
rapprocher des data scientists vers des services Hadoop en self-service.
Pour s’attaquer à la complexité d’Hadoop, Spark est d’abord apparu sur le
marché. Ce framework a pour mission d’améliorer le modèle de traitement
des données de MapReduce et d’ajouter un niveau d’abstraction
supplémentaire pour les développeurs. Les développeurs Java doivent
encore remonter leurs manches, mais n’ont toutefois plus à s’intéresser à la
plomberie. C’est également cette même approche qui a entraîné la création
Page 97 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
d’outils SQL pour Hadoop, pour étendre le framework à une plus large
audience.
Pourtant, il reste un problème : la mise en production d’Hadoop et Spark
nécessite toujours des super-héros aux pouvoirs étendus : l’administration
système, le développement Java ou l’ingénierie de la donnée. Et
pourquoi pas celles liées à la data science et à la statistique ?
Des super-héros de la donnée
Avec l’arrivée d’Hadoop, la fonction Data Scientist s’est envolé, mais il est
apparu que, finalement, Hadoop n’était pas la meilleure technologie pour ces
profils. Cela en a donc restreint l’adoption, car ces super-héros, issus de
l’ingénierie de la donnée ou de la data science, étaient une denrée plutôt
rare.
Leur principal problème : cet accès à l’infrastructure qui gère les traitements
de données. Il existe de nombreux problèmes de configuration que l’on doit
résoudre. Celui portant sur l’allocation des ressources en est un.
Pour cela, les fournisseurs de technologies travaillent à résoudre ce
problème. Et aujourd’hui, on peut considérer leurs actions comme une
première étape vers le self-service. C’est par exemple le cas de Databricks.
Le père de Spark a présenté en début de mois Databricks Serverless Pools
Page 98 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
(en béta) qui vise à faciliter l’accès à cette infrastructure de la donnée et à
éviter ce problème d’allocation.
Même son de cloche chez Cloudera, avec son Data Science Workbench, qui
s’appuie sur les containers pour isoler les jobs des data scientists à exposer
sur Hadoop. L’offre s’appuie sur la technologie de Sense.io que Cloudera a
racheté l’année dernière.
Une voie qu’emprunte aussi Hortonworks avec un partenariat noué avec
IBM. Si, à travers cette alliance, Big Blue préfère se ranger derrière la
distribution Hadoop d’Hortonworks “ abandonnant du coup la sienne - , le
pure-player Hadoop a aussi annoncé qu’il devenait revendeur de Data
Science Experience, une solution IBM dont la vocation est notamment de
soulager les data scientists de certaines opérations de configuration.
Datameer, Domino Data Lab, Pentaho et Platfora travaillent aussi à apporter
des fonctions en mode self-service aux data scientists.
Un Hadoop flouté
Mais cette évolution se traduit également dans le marketing qui jusqu’alors
entourait Hadoop. Aujourd’hui, les grandes conférences liées au Big Data
ont retiré Hadoop de leur nom : Strata+Hadoop World est devenue Strata
Page 99 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Data Conference et Hadoop Summit, DataWorks. Assurément, l’industrie
devrait inventer d’autres sobriquets dans les mois à venir.
Mais ce qui est clair est que l’objectif premier est de rendre autonome le
traitement des données pour élargir la base d’utilisateurs. En témoigne les
différentes annonces côté fournisseurs. Toutefois, il reste encore du chemin
à parcourir.
Article suivant
Page 100 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Gestion des données et IA en 2017 : retour vers le futur
Cyrille Chausson, Rédacteur en Chef
En 2017, le monde de la donnée était en proie à un certain paradoxe.
Comme si finalement, considérer l’avenir impliquait de regarder
systématiquement dans son rétroviseur.
Du Big Data à l’IA
Si le vent du Big Data est certes tombé, le temps de la centralisation des
données dans un œgrand tout• (comprendre le lac de données - data lake)
semble avoir en effet fait long feu, celui de l’Intelligence artificielle s’est levé.
Un vieux concept qu’il a fallu déterrer des années 80. Mais il se retrouve
aujourd’hui porté par la volonté des éditeurs et autres fournisseurs de
technologies de le rendre désormais consommable, de lui faire une place
dans des environnements numériques toujours plus présents. Tant chez les
consommateurs grand public que les professionnels - l’heure est en effet à
la transformation digitale.
Page 101 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Pourquoi ? La réponse est venue à maintes reprises en 2017. Après avoir
entassé leurs données, sans hiérarchie, sans segmentation, il est désormais
temps de les utiliser et tenter de les intégrer plus près des processus
métiers pour les valoriser. Bref, les rendre utiles pour les modèles
opérationnels des entreprises. Avec l’IA, et ses concepts (Machine
Learning, Deep Learning, Cognitif), les entreprises y voient un moyen - parmi
d’autres - pour y parvenir. Il s’agit là de piocher dans leurs lacs et océans de
données pour donner un sens, une forme de connaissance, un insight qui
jusqu’alors n’avaient pas, ou partiellement, émergé.
Alors, évidemment, quitte à brouiller quelque peu les messages, les
spécialistes du secteur, comme Microsoft, SAP, Oracle, se sont précipités,
poussés par les Gafa - essentiellement américains - qui disposent une
longueur d’avance tant la quantité de données qu’ils hébergent et génèrent
dépasse largement celle de toute entreprise. Une approche qui d’ailleurs
soulève quelques questions en France - et plus généralement en Europe, et
fait réfléchir les instances autorisées, à l’image de France IA. Verra-t-on en
2018 émerger une filière Intelligence Artificielle dans l’Hexagone ?
En attendant, des cas d’usages ont montré le bout de leur nez. La
reconnaissance du langage, d’images ou encore le langage naturel et le
text-to-speech habitent les précieux bots. Le marketing s’en est
logiquement emparé, avec la volonté d’offrir une interaction avec le client
plus automatisée (prenons exemple sur la Société Générale), plus réactive
Page 102 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
et donc plus proche du client. Les chatbots ont aussi montré le bout de leurs
algorithmes. L’IA peuple également les applications d’entreprises pour
augmenter la précieuse expérience utilisateurs et se montre sur le poste de
travail. Comme dans Gmail ou Office365 par exemple - déduire des patterns
dans Excel, inclure des infos trafic dans Outlook.
Banques, Assurances, Finance, RH, Retails, tous ont perçu dans l’IA un
moyen de mieux échanger avec les utilisateurs ou encore de mieux les servir
- la détection de fraude dans les banques par exemple.
Machine Learning, Deep Learning et Cognitif sont en 2017 devenus des
mots indispensables aux discours des fournisseurs IT, quitte alors à semer
le trouble dans la compréhension du concept par les entreprises et à flouter
les éventuels cas d’usages qui pourraient se dessiner.
Mais cela correspond à la partie de 2017 qui devrait assurément se
poursuivre (construire?) en 2018. Car en matière d’Intelligence artificielle, il
reste encore beaucoup de chemin à parcourir - le non supervisé par
exemple.
SQL à tous les étages
L’autre pan de 2017 s’apparente.... à un retour en arrière, à l’intersection des
nouvelles technologies et d’une norme née il y a plus de 30 ans : SQL. Si le
Page 103 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
mouvement NoSQL (Not Only SQL, rappelons-le) avait griffé la joue du
modèle relationnel et de son approche ultra-structurée, pour mettre en
avant ses capacités tantôt de disponibilité, tantôt de performances, mais
rarement de cohérence, en 2017, le fossé s’est finalement resserré. Il est
désormais impossible de ne pas présenter une solution de gestion de
données sur le marché sans y intégrer un moteur SQL (ou compatible avec
le syntaxe SQL), doué de requêtes interactives. Du SQL dans le NoSQL, sur
Hadoop (comme Impala), sur Spark et plus récemment sur Kafka, le
framework qui tend à devenir synonyme de gestion des messages et flux de
données en temps réel - après Spark.
Il existe plusieurs explications à cela. Primo, en supportant SQL, on supporte
l’écosystème de SQL, c’est-à-dire les solutions de BI et de visualisation de
données qui peuplent en général les entreprises. Si les technologies des
données en volume et/ou non structurées doivent y trouver leur place, il est
nécessaire qu’elles puissent se greffer aux briques d’un SI en place afin d’y
inclure aussi les bonnes données - les données opérationnelles par exemple.
Secundo, et c’est souvent l’argument avancé, le support d’un langage
proche de SQL a le mérite d’attirer la grande communauté des connaisseurs
de SQL. Ils maîtrisent historiquement les bases de données et gèrent donc
celles en place dans les entreprises. Inutile d’avoir à mettre en place de
longs plans de montées en compétences ou encore à rechercher des profils
rares - les data scientists par exemple - et donc très coûteux..
Page 104 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Tertio, les bases dites NoSQL ont toutes pris un virage dans leur
positionnement. D’une base centrée sur une typologie d’usage, le NoSQL
s’est tourné vers le multi-modèle, capable d’absorber et de traiter différents
types de données pour répondre à différents cas d’usage. Prenons exemple
sur DataStax. Cet éditeur a équipé son socle Cassandra de plusieurs autres
modèles au sein de DSE (DataStax Enterprise), dont une prise en compte
des graphes, ou encore un système de fichiers compatibles HDFS. De son
côté, MongoDB, outre les graphes, s’est aussi orienté vers les couches
supérieures en proposant des applications de visualisations de données.
Citons également la volonté de MarkLogic de se positionner comme un hub
de données opérationnel, pour reprendre son expression.
Un changement de positionnement qui a aussi contribué à redessiner le
marché. Et ce ne serait qu’un début. Si l’entrée en bourse de MongoDB peut
être un exemple, le sauvetage de Riak (autre base NoSQL) par Bet365, l’un
de ses principaux contributeurs, en est un autre.
Enfin porter SQL sur des terres peu explorées s’est aussi concrétisé en
2017. Microsoft et Google ont présenté leur concept de bases de données
dans le Cloud, massivement géo-distribuées, supportant SQL et apportant
des niveaux de cohérence des données adaptés. Spanner chez Google;
CosmoDB chez Microsoft. En France, un projet de recherche, AntidotDB, a
lui-aussi sa formule magique pour porter SQL à très grande échelle.
Page 105 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Ce sera à coup sûr un angle à considérer pour 2018 : la cohérence des
données à grande échelle. Car finalement ce que veulent les entreprises :
rapprocher leurs systèmes transactionnels et analytiques dans un système
unique. Une consolidation des systèmes de données est donc en cours.
Réponse en 2018.
Article suivant
Page 106 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
2018 : des usages au quotidien
Devenir une Smart City passe par les données
Sophy Caulier, Journaliste
Quel rôle vont jouer les données et les technologies dans la réussite des
projets de smart cities en Europe ?
Seagate a récemment rassemblé quelques experts pour débattre de ce
sujet. Et la réponse fut unanime : quelle que soit la taille de la ville, c'est sur
les données et leur intégration que repose le succès du projet, qui doit
forcément être global.
Les villes qui se sont déjà lancées, et celles qui démarrent, poursuivent plus
ou moins les mêmes objectifs. Elles attendent de la collecte des données et
de leur traitement par différents logiciels analytiques et outils d'Intelligence
Artificielle (réseaux neuronaux, algorithmes d'apprentissage) qu'ils
contribuent à :
fluidifier le trafic et donc à diminuer le niveau de pollution réduire la consommation d'énergie faciliter l'accès aux services proposés par la municipalité
Page 107 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
mieux entretenir les équipements municipaux et améliorer la sécurité des citoyens
A terme, les solutions intègreront les véhicules autonomes, la circulation des
drones, la surveillance des événements ou l'accès aux soins.
Le tri des données, une étape nécessaire
Les prévisions d'augmentation des volumes de données générées et
stockées obligent toutefois à adopter une stratégie claire de choix et de tri
des données. Dans l'étude Data Age 2025, réalisée par IDC, Seagate estime
le volume global de la « datasphere » en 2025 à 163 Zo (zettaoctets) soit 10
fois plus qu'en 2016 (16,1 Zo).
Pour les villes, il va de soi qu'il faut choisir quelles données recueillir et
combien de temps les conserver.
Les données émises par les feux de signalisation, par exemple, n'ont
d'intérêt que sur une courte période. Il s'agit surtout de s'assurer de leur bon
fonctionnement. En revanche, les images des caméras de surveillance d'un
établissement public ou du lieu d'un accident pourront servir dans le futur à
identifier une personne ou à décider de la modification d'un site si trop
d'accidents s'y produisent.
Page 108 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Le principal facteur de succès d'un projet de Smart City est aussi
l'intégration des sources de données. Non seulement celles-ci sont de
formats très différents, mais elles proviennent d'acteurs publics et privés qui
exploitent des systèmes totalement hétérogènes.
Il faut, par exemple, pouvoir combiner les signaux émis par un réseau de
capteurs avec des données textuelles contenues dans un email et des
images de vidéosurveillance pour anticiper un incident ou détecter et
localiser une panne.
De nombreux aspects encore peu abordés
Cette nécessaire intégration pose deux problèmes qui ne sont pas encore
totalement réglés.
Le premier est que de telles solutions technologiques ont un coût, loin d'être
négligeable. Les collectivités peinent souvent à les financer. Les projets de
Smart City se font donc souvent dans le cadre de partenariats public “ privé
(PPP). Certains imaginent qu'à l'avenir, des données pourraient être
revendues à des fins commerciales et contribuer ainsi au financement de la
solution. Mais ce n'est là qu'une hypothèse pour l'instant.
Ce qui conduit au deuxième problème : comment exploiter des données tout
en respectant la vie privée des citoyens ?
Page 109 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Ceux-ci sont pour l'instant plutôt réticents à partager leurs données, même
dans le cadre d'un projet de Smart City qui faciliterait leur quotidien. Le
recours à l’open data ne résout qu'une partie de la question, car toutes les
données ne sont pas en accès ouvert.
L'intégration des sources amène à combiner des données ouvertes publique
avec des données en provenance de partenaires.
La prochaine mise en application du RGPD (Règlement européen sur la
protection des données) complique encore la chose. Par exemple, une
application qui signale la disponibilité d'une place de parking à un
automobiliste ne nécessite pas son accord sur l'accès aux données. En
revanche, si le parking est payant, alors l'utilisateur doit être informé des
conditions de l'application et les accepter. Et c'est là un des cas de figure les
plus simples.
Principale application, la sécurité
Le sujet des données dans la Smart City est résolument d'actualité. Lors de
sa récente journée consacrée à l'analytique, Oracle a accueilli Caroline
Pozmentier, adjointe au maire de Marseille et déléguée à la sécurité
publique, et Fabienne Marty, chargée de mission auprès de la DSI de la ville.
Page 110 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Elles ont présenté le projet de « Big data de la tranquillité publique », qui vise
à « collecter et croiser des informations susceptibles d'aider les forces de
police municipale à assurer la tranquillité publique » des Marseillais, dixit le
site de la ville.
« Nous voulons faire de Marseille un laboratoire, faire travailler tous les
services ensemble, la police, les pompiers, les espaces verts », explique
Caroline Pozmentier.
Fabienne Marty détaille le projet : « Nous avons cartographié les données
récupérables et les avons corrélées. Puis nous avons fait un PoC (Proof of
concept, ndlr) sur l'accidentologie avec Engie Ineo ». Ce dernier s'est
associé à Oracle pour répondre “ et remporter “ l'appel d'offres qui a fait
suite au PoC.
La Ville développe maintenant plusieurs cas d'usage - notamment sur la
gestion des événements sur les territoires urbains comme les chantiers, par
exemple, la circulation ou l'accidentologie et les trajets à risques.
Marseille n'est pas la seule à privilégier l'aspect sécurité dans son utilisation
des données. Plusieurs villes dans le monde ont commencé leur projet
Smart City par la sécurité. La surveillance des événements sportifs ou
culturels, la prédiction des incidents et la lutte contre le crime tirent
pleinement parti des possibilités d'analyse de données offertes par le Big
Data et de l'utilisation d'algorithmes intelligents.
Page 111 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Le Big Data et la Data Science au service de la sécurité routière en France
Alain Clapaud, Journaliste
Le 9 janvier dernier, suite au conseil interministériel de la sécurité routière,
Edouard Philippe, le Premier ministre, annonçait une nouvelle stratégie afin
d'améliorer la sécurité sur les routes. Si l'abaissement de la vitesse limite à
80 km/h a suscité beaucoup de réactions, un chapitre de ce plan d'action
porte sur l'usage des nouvelles technologies afin d'anticiper les accidents.
C'est tout l'objet de ce nouvel observatoire des risques routiers et de la
mobilité. Ce projet est mené par l'association Prévention Routière, Attitude
Prévention, qui réunit les assureurs français, l'institut des actuaires,
OpinionWay et Gfi Informatique. Leur objectif est d'aller au-delà des
données statistiques de l'ONISR (Observatoire National Interministériel de la
Sécurité Routière). Anne Lavaud, déléguée générale de l'association
Prévention Routière explique cette initiative : « Malgré leur grande qualité et
l'indéniable valeur des séries longues sans rupture statistique, les causes et
les facteurs d'accidents apparaissent parfois en décalage avec la réalité des
comportements des automobilistes, cyclistes, motards ou piétons [...] Le
développement des nouvelles technologies et des techniques du Big Data
nous sont apparus comme des opportunités à saisir pour trouver des
réponses à nos interrogations. »
Page 112 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Quand les enquêtes d'opinions sont confrontées au Big Data
De fait, l'Observatoire des risques routiers et de la mobilité se distingue des
(très) nombreux observatoires qui publient des indicateurs dans à peu près
tous les domaines imaginables. Créé avec OpinionWay, celui-ci va, très
classiquement, être bâti sur des enquêtes régulières réalisées auprès d'un
panel de 1000 français. Mais ce qui est beaucoup plus innovant : ces
personnes vont disposer d'une application mobile qui va générer des
données relatives à leur comportement de conduite. « Notre vision, c'est de
continuer à faire notre métier traditionnel qui est d'interroger des
échantillons de personnes, mais nous nous intéressons aussi au Big Data
avec les données de nos clients ainsi que les données Open Data », a
expliqué Hugues Cazenave, président d'OpinionWay.
« Croiser et hybrider les données permet de générer de la valeur », a conclu
le fondateur de l'institut de sondage. Cette hybridation va surtout permettre
de confronter les réponses des conducteurs au questionnaire qui leur sera
soumis tous les 4 mois à leur véritable comportement sur la route. Car si
tout le monde déclare respecter à la lettre le code de la route, la réalité est
souvent toute autre.
Page 113 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
L'application mobile dont seront dotés les panelistes assurera la remontée
des données de conduite vers les serveurs de Gfi Informatique, partenaire
technique du projet. L'ESN fournit sa plateforme Big Data gratuitement à
l'association Prévention Routière, sous la forme d'un mécénat : « Participer à
ce projet, c'est démontrer que les technologies du Big Data et d'IA peuvent
être exploitées pour le bonheur et la sécurité des citoyens », a souligné
Vincent Rouaix, PDG du groupe Gfi Informatique. « La corrélation des
données permise par l'IA va donner une connaissance de l'état de la route.
Nous travaillons sur les moyens de capter les données, soit au moyen de
l'IoT, de caméras, du son afin d'améliorer encore la performance de
captation. Nous travaillons sur les algorithmes d'intelligence artificielle afin
de trouver de nouveaux usages, de nouvelles approches pour améliorer le
quotidien de chacun. Une captation collaborative a aujourd'hui été mise en
place auprès du panel, mais demain, nous irons vers une captation
automatisée afin de sécuriser la mobilité dans notre quotidien. »
Une plateforme Big Data conçue par Gfi pour de multiples marchés
Cette plateforme est une démonstration du savoir-faire développé par Gfi
Informatique dans le domaine du Big Data. Elle est le fruit des
développements du laboratoire d'innovation parisien de l'ESN dirigé par
Jean-François Gaudy, Chief Innovation Officer. Celui-ci a livré quelques
Page 114 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
détails sur cette plateforme : "Celle-ci ne s'appuie ni sur Hadoop, ni sur les
bases NoSQL du marché. Hadoop par exemple n'était pas adapté pour une
plateforme appelée à recevoir 1 milliard de données chaque jour. Cela aurait
été à la fois très lourd et très couteux d'avoir des VM Hadoop dans le Cloud
pour traiter ces données. Pour cette plateforme représentative de l'offre
Daas (Data As a Service) de Gfi, nous avons préféré nous appuyer sur l'offre
Cloud Microsoft Azure, avec le composant Azure Event Hub qui se charge
de la collecte des données et Azure Data Lake pour le stockage. Tout ce qui
vient au-dessus de ces briques techniques de base est développé par Gfi,
avec notre propriété intellectuelle. »
Sur celle-ci, les Data Scientists de Gfi développent les algorithmes qui vont
exploiter les données de comportement glanées via les smartphones des
panélistes et les recouper avec des données tierces. « Nous corrélons nos
données avec celles des infrastructures routières, notamment la
signalisation disponible dans OpenStreetMap. Cela nous permet par
exemple de calculer le temps d'arrêt du conducteur à un panneau stop. Nos
données montrent que ce temps est souvent inférieur à l'arrêt de 2
secondes enseigné dans les auto-écoles. En déclaratif, le conducteur va
déclarer s'arrêter aux stop, les données montrent que ses arrêts sont trop
courts. »
De même, les Data Scientists peuvent déduire des données les
franchissements de vitesse, mais aussi repérer les nids-de-poule sur une
Page 115 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
route lorsque des accélérations verticales sont repérées systématiquement
au même endroit sur plusieurs véhicules. Autre donnée intéressante à
analyser pour la sécurité routière, la vitesse angulaire des véhicules : « Nous
sommes capables d'identifier les virages où la vitesse angulaire des
véhicules est trop importante et corréler cette information avec la vitesse
maximale dans ce virage. Si celle-ci est de 90 km/h par exemple, c'est un
point dangereux et il faut sans doute limiter la vitesse à 70 km/h dans ce
virage ».
Une plateforme qui se veut ouverte
Cette plateforme est accessible aux Data Scientists de Gfi, mais aussi à
ceux d'OpinionWay afin de travailler sur les données en fonction de chaque
étude. Néanmoins, le chef de l'innovation de Gfi évoque ouvrir ces données à
des tiers : « Notre plateforme permet aux Data Scientists d'interroger nos
données via Azure Analytics mais nous pensons qu'à l'avenir, des
entrepreneurs pourront créer leur startup et valoriser les algorithmes qu'ils
auront créés pour exploiter les données. Un Data Scientist pourra disposer
de datasets anonymisés et représentatifs des données présentes dans nos
Data Lake. Il pourra travailler sur ces modèles avec les outils de son choix,
puis ceux-ci seront intégrés à notre plateforme pour être exécutés sur
l'ensemble des données. »
Page 116 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
L'équipe de Jean-François Gaudy travaille notamment sur les outils de
monétisation de tels algorithmes. Cela permettrait de créer des
écosystèmes autour des données stockées par les clients de l'offre Daas de
Gfi Informatique. Municipalités, assureurs figurent parmi les premières cibles
potentielles de cette offre Big Data qui vient se placer en concurrence avec
les grandes plateformes IoT du marché.
Article suivant
Page 117 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
La qualité des données progresse au rythme des systèmes Big Data en production
Cyrille Chausson, Rédacteur en Chef
Alors que les lacs de données s’installent dans les environnements en
production, l’intérêt pour la qualité des données grandit dans les entreprises.
Comme une lapalissade, c’est une des conclusions que l’on aurait pu retenir
de la dernière étude annuelle de Syncsort pointant les grandes tendances
de 2018 en matière de Big Data. Une conclusion finalement logique mais
riche d’enseignements : il apparait s que parmi les principaux secteurs
d’activités listés, les secteurs des services financiers et de la santé
apparaissent comme ceux ayant déjà déployé des lacs de données en
production - des secteurs hautement régulés dans le monde entier. La
population répondant à cette étude est également composée d’entreprises
du secteur public et du secteur de l’information “ ce dernier étant très
concerné par la mise en place de la loi européenne RGPD.
Ainsi sur les 200 répondants, 40% affirment avoir déjà déployé des lacs de
données bâtis sur Hadoop ou Spark. 30% évoquent des pilotes en cours.
Syncsort note que ces socles inhérents au Big Data s’inscrivent désormais
comme des composants clé des SI des entreprises. A 70,8%, les opérations
Page 118 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
de transformation des données (ETL “ Extract, Transfert and Load) sont les
premiers cas d’usage de ces data lakes. Suivent les opérations d’analytiques
avancées et l’analyse prédictive (63,5%) et l’analyse temps réel (60,4%).
Avec des environnements d’entreprise toujours plus ramifiés et distribués,
les entreprises sont amenées à exploiter les données issues de différentes
sources et à les transférer dans le data lake pour y effectuer les précieuses
analyses. Parmi ces sources, la base de données relationnelle reste le
principal contributeur à l’enrichissement de ces plateformes (69,3%) devant
l’entrepôt de données (62,5%), cité comme première source dans l’édition
précédente de cette étude. Les bases de données NoSQL (46,4%) suivent
aux côtés des fournisseurs de données tiers (45,3%). Le Cloud “ une source
qui ne cesse de grandir “ est une source pour 40,6% des répondants et le
mainframe (31,8%). Rappelons que la migration d’applications et de code
mainframe vers des socles modernes et standards est une spécialité de
Syncsort.
L’on comprendra ainsi l’intérêt grandissant des entreprises pour la qualité
des données de ces lacs de données et pour leur gouvernance. Ce sont là
les deux principales difficultés rencontrées par les entreprises répondantes.
Elles détrônent d’ailleurs l’argument de la pénurie de compétences,
préoccupation n°1 des entreprises lors des 3 précédentes études.
Plus la diversité des données est importante, plus les entreprises ressentent
la nécessité de travailler sur la qualité des données, résume ainsi Syncsort.
Page 119 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Pour 60% des répondants, la moyenne des sources de données est de 4,
mais pour celles qui en intègrent plus de 5, cet intérêt pour la qualité des
données est 4 fois plus important.
Pourtant, il existe bien un paradoxe : la qualité des données n’est encore pas
une priorité pour toutes les entreprises, y compris celles qui ont placé parmi
les premiers cas d’usage de leurs lacs de données des opérations
d’analyses prédictives par exemple. Un vrai « souci », souligne Syncsort qui
rappelle que la qualité des analyses fournies sera directement liée à la
qualité des données analysées¦
Article suivant
Page 120 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Big Data : les dessous du projet d'Etam
Philippe Ducellier, Journaliste
Etam est un groupe français centenaire, spécialiste de la mode, de la lingerie
et des sous-vêtements féminins. La société possède quatre marques : Etam,
1,2,3, Undiz, et la toute nouvelle Livy (déclinaison plus haut de gamme
d'Etam, vendue par exemple au Bon Marché).
En tout, le groupe gère 4 000 points de vente, dans 52 pays et emploie 15
000 personnes dans le monde. Son chiffre d'affaires est d'environ 1,3
milliard d'euros pour un résultat opérationnel de 50 millions.
Contexte
Dans un contexte où le e-commerce est devenu un mode d'achat privilégié,
et où internet est un canal marketing à part entière, Etam a lancé un projet
de transformation numérique pour ne pas louper ce virage digital. Son but :
mieux anticiper les ventes (pour améliorer la chaîne d'approvisionnement et
les marges), être capable de mesurer les performances de son activité, et
surtout personnaliser au mieux l'expérience cliente.
Page 121 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
« L'expérience, en ligne et hors ligne, est primordiale. C'est elle qui permet
de fidéliser », tranche Jonathan Attali, directeur Ecommerce & Innovations
chez Etam. « Ce n'est pas le programme fidélité en lui-même, c'est vraiment
ce que la cliente va vivre chez Etam qui fait qu'elle va revenir ».
Or l'expérience de l'utilisatrice passe par une meilleure connaissance, « et la
connaissance passe par la data ».
Données en silos
Oui, mais chez Etam - comme dans beaucoup de groupes - « nous avions
énormément de données en silos », diagnostique Grégoire Sanquer, DSI de
l'entreprise.
« On avait des données depuis le début des années 90 avec le programme
de fidélité. Elles étaient bien stockées, mais bien silotées aussi », confirme
Jonathan Attali. Bref, les données étaient quasiment inexploitables.
Au sein d'Etam, une idée s'impose alors rapidement : pour avancer, il faut
que la "data" ne soit ni la propriété de l'IT, ni celle des métiers. « L'essentiel
c'est de s'aligner les uns avec les autres pour sortir des cas d'utilisations
centrés sur la cliente ».
Pas question, en revanche, de faire des démonstrateurs purement
techniques. « On a toujours eu en ligne de mire l'expérience utilisatrice. On
Page 122 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
ne voulait pas se dire "on a fait un truc super"... mais que la cliente s'en fiche
», insiste Jonathan Attali.
Logiques "Plug & Play" et "Test & Fail"
Etam se met alors dans une logique "start-up" et "Plug & Play" (sic).
« Nous ne voulions pas lancer des projets qui mettraient deux ans à sortir.
On veut qu'ils soient "live" en un mois ou deux », indique Jonathan Attali.
« On a aussi adopté une logique "test & learn", c'est-à-dire que l'on accepte
de se tromper - une fois, deux fois, trois fois s'il le faut - pour trouver
quelque chose qui fonctionne. Et ensuite, le décliner très rapidement ».
Pour parvenir à ce résultat, l'IT devait évidemment être agile. Logiquement, il
n'était pas possible d'attendre plusieurs mois une DMP (Data Management
Platform) si le cas d'usage devait, lui, sortir en quelques semaines, voire en
quelques jours.
Idem pour l'infrastructure qui devait suivre et ne pas mettre plusieurs jours à
être provisionnée.
Un monde idéal ? « C'est ce que l'on fait chez Etam », se réjouit Jonathan
Attali qui souligne - en plaisantant - qu'il n'est pas si commun d'avoir, en
Page 123 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
bonne entente, un témoignage commun d'un représentant métier et de la
DSI.
Un "Data Hub" dans le Cloud
« La réponse de l'IT a été des process agiles, mais pas au sens
méthodologie », enchaîne Grégoire Sanquer, « plutôt au sens où l'on change
les priorités d'une semaine sur l'autre ».
Cette flexibilité demande une excellente communication transversale. « On
n'est plus vraiment dans le "retail", on est dans le "fashion". Il faut que ça aille
vite », justifie-t-il.
Le DSI commence par poser les bases d'un "Data Hub" entre les différentes
briques logicielles utilisées par Etam. « On utilise beaucoup de start-ups
pour beaucoup de sujets différents. On a un canon à mails, un outil SAV, une
DMP. Mais il faut que l'ensemble de nos bases de données clients soient
synchrones entre les différents systèmes ».
Dans ce "Data Hub", véritable cÅ“ur du projet d'Etam, il est également
possible de déverser les données dans un Data Lake. « Le tout en temps
réel », insiste le DSI.
Pour réaliser ce "Hub" de manière "agile", Etam a choisi le Cloud (AWS). La
flexibilité du PaaS permet en effet d'aller vite.
Page 124 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Plus vite en tout cas, pour Grégoire Sanquer, que s'il avait dû revoir le SI -
comme lui ont proposé des acteurs avec des projets « à 3500 jours hommes
» pour revoir l'existant et le CRM. « Ce n'était juste pas possible » au regard
des objectifs visés et du timing voulu - et certainement du budget.
L'ami AWS
Auparavant, Etam possédait une infrastructure 100% sur site. Mais un tel
projet n'aurait pas été possible dans ces conditions. Au contraire,
aujourd'hui, avec des solutions serverless comme Lambda, la DSI a fait le
choix de la plus grande flexibilité possible.
L'option AWS peut surprendre. Le bras IT du e-commerçant n'est pas en
odeur de sainteté auprès des distributeurs, qui voient sa maison mère
Amazon comme un concurrent.
Ce n'est pas le cas chez Etam.
« En interne, nous voyons Amazon comme un partenaire potentiel. Bien sûr,
ils vendent aussi de la lingerie. Mais si demain on veut vendre aux Etats-Unis,
on aura aussi besoin d'eux », tranche le DSI.
Quoi qu'il en soit, il ne faut pas attendre d'avoir l'infrastructure idéale pour
débuter un projet Big Data, conseillent les deux responsables d'Etam.
Page 125 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
« Faites étape par étape », en fonction des retours et des demandes
métiers. « Il faut aussi savoir prioriser », prévient le DSI. « Et nourrir la
curiosité », renchérit le directeur Ecommerce & Innovation.
Ysance et des solutions françaises
Pour accompagner le projet de Hub, Etam a fait appel à un spécialiste
français du Big Data et de l'analytique, Ysance, dans lequel la famille Mulliez
(groupe Auchan) a réalisé un investissement stratégique en 2015.
« Ysance nous a beaucoup aidés sur la première DMP, pour rapprocher les
profils des clientes online et offline », se souvient le DSI.
Depuis Ysance, en spécialiste du retail et de l'analytique marketing, a aidé
Etam sur le choix technique et sur la mise en place de la plateforme.
Résultat, une plateforme adossée au Cloud, avec une DMP estampillée
Ysance. En entrée, un outil français de service client (Easiware), un outil de
Master Data Management lui aussi - à moitié - français (Semarchy), du
Salesforce (Commerce Cloud, ex-Demandware) et un ETL (Talend). Au
milieu : des services AWS du sol au plafond (Kinesis - traitement de flux de
données en temps réel, S3, le moteur d'orchestration serverless Lambda et
les trois bases de données DynamoDB (NoSQL), RedShift (entrepôt de
Page 126 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
données) et Aurora (base relationnelle)). En sortie, le "canon à mails" belge
Actito, et une plateforme marketing conçue avec Ysance.
Grégoire Sanquer et Jonathan Attali sur la scène du Big Data Paris 2018
Actito, en particulier, personnalise les mails envoyés aux clientes et module
l'heure des envois en fonction des taux d'ouvertures clientes par clientes (ce
qui génère d'autres données analysables). La DMP, alimentée aussi par les
retours magasins, permet, quant à elle, de générer de segments plus
rapidement et « plus intelligemment ».
Tout n'est pas totalement achevé. Etam doit encore finaliser son
architecture temps réel avec des sprints réguliers (Easiware n'est pas
encore totalement connecté au Data Hub par exemple), mais la suite est
déjà en route.
Une connaissance des clientes aussi fine que de la dentelle
Avant ce Data Hub, pour avoir une vue complète d'une cliente (a-t-elle
ouvert le mail ?, a-t-elle acheté en magasin ?, utilise-t-elle les promotions?,
etc.), il fallait consulter 17 systèmes.
Page 127 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
« Aujourd'hui, grâce à la DMP et à l'infrastructure mise en place, on remonte
les tickets de caisse des 450 magasins en France en moins de 10 minutes.
Ce qui fait qu'on arrive à mesurer les performances d'une opération en
moins de 10 minutes également », se réjouit le directeur Ecommerce &
Innovation.
Autre bénéfice, les taux d'ouverture des e-mails auprès de certaines
audiences - mieux ciblées - atteignent des sommets, à plus de 55 %.
Les données du programme fidélité - enfin exploitées - couplées à toutes
celles de la DMP ont par ailleurs permis d'établir qu'en moyenne « une
cliente fait entre quatre et cinq visites sur le site Internet dans les deux
semaines qui précèdent un achat en magasin ».
Autre enseignement, une cliente qui achète en magasin et en ligne achète
trois fois plus qu'une cliente qui n'achète que sur un des deux canaux. Et ces
dépenses sont uniformément réparties entre les deux types de boutiques.
2 milliards de données de points de contact
Ces deux informations montrent que le digital n'est pas un concurrent du
magasin physique, mais un accélérateur de revenus pour tous les canaux.
Ceci étant, pour arriver à cette connaissance, il a fallu mettre en place des
"points de contacts" (quand une cliente passe-t-elle en magasin ? a-t-elle vu
Page 128 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
une publicité ?, a-t-elle ouvert un mail ?, a-t-elle a surfé sur le site ?, etc.).
Etam dispose aujourd'hui d'un historique d'environ 2 milliards de ces
"touchpoints" dans son Data Lake - à la disposition de l'analytique, des
métiers et des Data Scientists.
« Aujourd'hui la donnée est utilisée par tous les départements d'Etam », se
félicite Jonathan Attali : achats (pour comprendre ce qui a fonctionné et qui
a acheté quoi), CRM pour affiner les campagnes, etc.
AI et Big Data...
La prochaine grande étape pour Etam sera de faire le grand plongeon dans
l'Intelligence Artificielle (IA).
Le groupe a déjà déployé des algorithmes de Machine Learning pour
détecter des tendances d'achats à la hausse en magasin, qui peuvent
différer des tendances sur le web. Ce qui n'est pas sans conséquence sur
les stocks et sur les initiatives différenciées à mener pour augmenter le CA.
Dans ce domaine également, Ysance a collaboré avec Etam pour
développer des outils prédictifs sur les achats et les actions à mener - ou à
ne pas mener. « Une cliente qui a déjà envie d'acheter ne va pas acheter
plus si elle reçoit un email », prévient Laurent Letourmy, président d'Ysance.
« Parfois, il faut savoir ne pas envoyer d'email ».
Page 129 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Laurent Letourmy insiste sur le fait que les données et l'IA appartiennent à
son client. Un point important pour le distributeur. « On a recruté un
développeur en Python. On veut ré-internaliser ce savoir-faire », confirme le
DSI d'Etam. « C'est notre démarche habituelle. On fait cela également avec
notre site e-Commerce, Demandware nous a aidé à démarrer, mais
aujourd'hui on internalise les savoir-faire ».
... pour écouler les gros bonnets (et les petits)
L'IA et le Big Data permettent d'ores et déjà à Etam d'approfondir ses
segmentations et de déterminer s'il faut faire des campagnes
personnalisées ou non.
« Nous étions en fin de solde, il nous restait beaucoup de tailles extrêmes,
des bonnets A, E et F », illustre Jonathan Attali. « Nous avons pu sortir en 5
minutes un segment des acheteuses potentielles en nous appuyant sur les
données des 25 derniers mois ».
La promotion a été communiquée sur Facebook en 30 minutes pour la
tester. Le mail a été poussé le soir même.
Page 130 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Résultat, la majorité des pièces a été écoulée en 48 heures. Et
majoritairement en magasin. Comme quoi, le Big Data ne concerne pas que
le monde numérique. Et pas que les gros bonnets de la Data Science.
Page 131 of 131
Dans ce guide
2010 : pas encore de Big Data mais
déjà Hadoop
2011 : le Big Bang du Big Data
2012 : BI, Open Source, MDM,
emploi : l’impact est de plus en plus
grand
2013 : un monde qui se structure
2014 : le brouillard se dissipe, les
datascientists émergent
2015 : Architecture et infrastructure
2016 : de plus en plus de projets et
des enjeux de sécurité
2017 : Le Big Data s’industrialise et
préfigure le développement de l’IA
2018 : des usages au quotidien
E-guide
Accéder à plus de contenu exclusif PRO+
Vous avez accès à cet e-guide en tant que membre via notre offre PRO+ : une
collection de publications gratuites et offres spéciales rassemblées pour vous
par nos partenaires et sur tout notre réseau de sites internet.
L’offre PRO+ est gratuite et réservée aux membres du réseau de sites internet
TechTarget.
Profitez de tous les avantages liés à votre abonnement sur: http://www.lemagit.fr/eproducts
Images; stock.adobe.com
©2018 TechTarget. Tout ou partie de cette publication ne peut être transmise ou reproduite dans quelque forme ou de
quelque manière que ce soit sans autorisation écrite de la part de l’éditeur.