10 ans de Big Data - armoris.bzh · Citons enfin Pentaho qui, en mai 2010, a décidé d'adapter ses technologies pour recevoir le framework. A l'époque, l'idée était de fournir

L’évolution du Big Data sur 10 ans

10 ans de Big Data

http://www.lemagit.fr

Page 1 of 131

Dans ce guide

2010 : pas encore de Big Data mais

déjà Hadoop

2011 : le Big Bang du Big Data

2012 : BI, Open Source, MDM,

emploi : l’impact est de plus en plus

grand

2013 : un monde qui se structure

2014 : le brouillard se dissipe, les

datascientists émergent

2015 : Architecture et infrastructure

2016 : de plus en plus de projets et

des enjeux de sécurité

2017 : Le Big Data s’industrialise et

préfigure le développement de l’IA

2018 : des usages au quotidien

E-guide

Introduction

Pour ses 10 ans LeMagIT vous propose de revenir en 10 éditions

spéciales Premium au format PDF sur 10 concepts clés nés –

pour ce qui concerne l’informatique d’entreprise – en même

temps que nous et qui se sont depuis largement imposés, jusqu’à

même être devenus incontournables.

Ce premier numéro spécial revient sur le Big Data. Au départ très

lié aux problématiques propres aux moteurs de recherche,

l’intérêt pour les grosses masses de données a très vite

concerné l’ensemble du secteur avant de prendre un nom

marketing et de finalement s’imposer comme un élément majeur

de l’informatique actuelle.

Découvrez comment le Big Data a décollé à travers une trentaine

d’articles.


Page 2 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

2010 : pas encore de Big Data mais déjà Hadoop

Data Management : le doux vent de la rentrée souffle sur Hadoop

Cyrille Chausson, Rédacteur en Chef

La rentrée aura été particulièrement animée pour le framework Open

Source Java de la fondation Apache. Conçu pour le développement de

systèmes de fichiers distribués et étendus, et ainsi pour gérer une

importante volumétrie de données, Hadoop commence sérieusement à

intéresser le monde du Data management et de la Business Intelligence.

Il faut dire que le framework Open Source avait fortement profité des

alizées du Cloud Computing, soutenu par des ténors du secteur que sont

Yahoo, Facebook et Google. Ces éditeurs ont livré à l'Open Source une

déclinaison de leur technologie maison reposant sur Hadoop, alimentant

ainsi la communauté en innovation sur un socle déjà prometteur. IBM avait

également apporté sa pierre à l'édifice en mai dernier, avant la trêve estivale,

en décidant de placer la solution au coeur d'une offre de services

analytiques - baptisée Infosphere Big Insight. Citons enfin Pentaho qui, en

mai 2010, a décidé d'adapter ses technologies pour recevoir le framework. A

l'époque, l'idée était de fournir un environnement pour faciliter le


http://news.techworld.com/applications/3224253/open-source-bi-vendor-ties-up-with-hadoop/

http://news.techworld.com/applications/3224253/open-source-bi-vendor-ties-up-with-hadoop/

Page 3 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

développement d'applications d'analyse de gros volumes de données,

collectées dans les entreprises. S'en suivit Pentaho for Hadoop.

Conséquences directes : ces déploiements et autres apports

technologiques de la part de seigneurs de l'IT ont davantage taillé Hadoop

aux besoins spécifiques des entreprises.

Et cette tendance s'est poursuivie à la rentrée. Le 1er novembre dernier, par

exemple, Informatica, l'un des fleurons du data management, annonçait une

alliance avec Cloudera, une société qui commercialise du support autour de

Hadoop. A la clé, l'intégration du framework Java supporté par Cloudera

(Cloudera Distribution for Hadoop) dans la plate-forme de BI d'Informatica.

Un combinaison gagnante selon l'éditeur qui permettra aux utilisateurs

d'exploiter les outils d'Informatica pour analyser les données -

transactionnelles et non structurées - stockées par Hadoop.

Le spécialiste de l'entrepôt de données Teradata avait à son tour décidé en

septembre 2010 de s'associer à Cloudera pour rapprocher ses technologies

d'Hadoop, comme l'indiquaient à l'époque la société Octo, sur son blog. Le

12 octobre dernier, ce fut au tour de Talend qui annonçait nouer un

partenariat avec cette même société pour rapprocher Hadoop de ses

technologies d'intégration de données et de MDM.

Autant de soutiens et d'alliances qui donnent à Hadoop un petit embonpoint

avant l'hiver, et attirent le regard. Il n'est dès lors pas étonnant que Cloudera

- qui est le maillon commun à la plupart des alliances citées ci-dessus -


http://www.informationweek.com/news/software/database/showArticle.jhtml?articleID=228000517&cid=RSSfeed_IWK_All

http://www.informationweek.com/news/software/database/showArticle.jhtml?articleID=228000517&cid=RSSfeed_IWK_All

http://blog.octo.com/teradata-cloudera-partenariat-autour-de-data-warehousing-et-de-hadoop/

https://www.businesswire.com/news/home/http:/beta.lemagit.fr/wp-content/uploads/2008/11/frr5xlrlcqa4ra6hlio54hdmfe6ndqvc.jpg01http:/beta.lemagit.fr/wp-content/uploads/2008/07/iepiqwkwvt4pu6bksgc3ptdenmr57dqz.jpg87/en/Talend-Cloudera-Announce-Technology-Partnership-Simplify-Processing

Page 4 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

monte également d'un cran. Cette société, lancée en 2008, a construit toute

son offre sur Hadoop et propose Cloudera Enterprise, une version validée et

certifiée de Hadoop à laquelle la société associe une offre de support de

classe entreprise. Le 26 octobre dernier, la société annonçait avoir levé 25

millions de dollars supplémentaires à l'occasion d'un troisième tour de table,

auprès des fonds d'investissements Meritech Capital Partners, Accel

Partners et Greylock Partners - ces deux derniers étant les investisseurs

historiques. Depuis sa création, Cloudera a levé 36 millions de dollars. Elle

emploie aujourd'hui 40 personnes.


Page 5 of 131

Dans ce guide


déjà Hadoop




grand










E-guide


Etat du monde IT : le Big Data, une offre qui se forme


Big Data, analytique, décisionnel, BI, analyse prédictive...en 2011, le

traitement et l'analyse des données en volume auront été sur les lèvres de

nombreux acteurs de la sphère IT. Les éditeurs, bien sûr qui voyant croitre la

masse de données produites par les entreprises ont décidé de se ranger

derrière ce nouvel étendard du Big Data afin de pousser intelligemment des

offres technologiques, plus ou moins adéquates, mais également les

entreprises, qui d'une façon pragmatiqus, doivent aujourd'hui composer avec

des données qui jusqu'alors n'avaient que peu pénétrer le périmètre du SI :

les données non structurées.

Pourquoi . Car outre la généralisation du Cloud Computing, 2011 aura

également été témoin de la montée en puissance d'un autre concept : celui

de la consumérisation de l'IT, ou du concept de BYOD (Bring your Own

Device). Un concept qui propulse à l'intérieur des environnements

professionnels des données provenant d'environnements particuliers,

notamment de la mobilité, des réseaux sociaux, des plates-formes vidéos,


Page 6 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

etc...Un appel d'air de données donc, mais de données nouvelles qui ne

remplissent pas les conditions très formalisées des bases de données.

L'heure est donc à leur prise en compte. Et c'est désormais sur ce terrain

que le Big Data s'installe. Le Gartner a par exemple inclus le concept dans

son traditionnel Hype Cycle 2011 et l'a classé parmi les 10 technologies

stratégiques pour 2012. Il est donc logique que le marché se mette en place.

Et c'est principalement ce qui aura marqué 2011.

Hadoop : l'éco-système des pure-players explose

Au départ fut Cloudera et Datameer. L'éco-système commercial d'Hadoop

au début 2011 était essentiellement composé de start-up qui, sentant le vent

du Big Data et de l'intérêt de l'Open Source dans ce secteur - celui du

traitement des données non structurées - ont basé leur modèle économique

sur une déclinaison commercial de Hadoop. Mais très vite, le marché attira

d'autres acteurs : si on connaissait l'implication de Yahoo dans la

communauté du framework Open Source de la fondation Apache, on ne lui

prêtait assez peu d'ambition commerciale en la matière. Pourtant le portail a

décidé bel et bien en 2011 de créer une division Hadoop, baptisée

Hortonworks qui allait venir donner le change aux start-up en place. Et cette

création représente un signal clair pour le marché. Car outre la

concrétisation de l'implication de Yahoo dans Hadoop, HortonWorks est

également né du soutien du fond d'investissement américain Benchmark


http://www.lemagit.fr/actualites/2240198486/Avec-Hortonworks-Yahoo-devient-fournisseur-de-solutions-pour-le-Big-Data


Page 7 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Capital. Preuve que derrière Hadoop, il y a une logique financière dans le Big

Data. Dans cette même idée, on se rappelle également l'intérêt des business

Angels de Kleiner Perkins dans Datameer.

Enfin, autre signe de l'intérêt commercial d'Hadoop, l'arrivée d'EMC sur ce

segment, qui profite du rachat du spécialiste du data warehouse Greenplum

en 2010, désormais la division base de données et business Intelligence du

géant, pour lancer en 2011 sa propre déclinaison Hadoop.

Hadoop : les gros du secteur y passent

Comme une reconnaissance du marché, en 2011, Hadoop a également attiré

les ténors de l'industrie IT qui ont placé ce framework au coeur de leur offre

de traitement des données en volume. Une des raisons invoquées : son coût

principalement, nous rappelait James Markarian, vice-président exécutif et

directeur technique d'Informatica confirmant ainsi que le framework

«contribuait à modifier le modèle économique du Big Data". Ajoutant que sa

flexibilité - Open Source oblige - était aussi un critère d'adoption. On

comprend alors mieux les éditeurs, comme Informatica, qui ont décidé

d'ajouter le support Hadoop à leur pile Big Data. Talend, Oracle, Teradata,

IBM, Sybase, EMC (via Greenplum) et IBM, pour ne citer qu'eux. Sans oublier

Microsoft, qui à la surprise générale, convoqua Hadoop en pleine

conférence sur SQL Server pour annoncer au monde entier le

développement - en collaboration avec Hortonworks - de versions du

framework pour Windows Server et bien sûr Azure.


http://www.lemagit.fr/actualites/2240194208/Hadoop-attire-les-investisseurs-chez-Datameer

http://www.lemagit.fr/actualites/2240194208/Hadoop-attire-les-investisseurs-chez-Datameer

http://www.lemagit.fr/actualites/2240194220/EMC-World-2011-GreenPlum-va-produire-sa-propre-distribution-Hadoop

http://www.lemagit.fr/actualites/2240198189/Hadoop-un-engouement-pour-une-technologie-qui-doit-encore-evoluer

http://www.lemagit.fr/actualites/2240193496/EMC-presente-une-plate-forme-unifiee-et-sociale-pour-le-Big-Data

http://www.lemagit.fr/actualites/2240198303/Big-Data-Microsoft-rapproche-Azure-et-Windows-Server-de-Hadoop



Page 8 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Big Data et analytique : on pose ses jalons

Si, en matière de Big Data, 2010 avait été témoin de rachats d'envergure, à

l'image de Netezza pour IBM ou Greenplum pour EMC, 2011 aura également

connu ses opération de croissance extérieure. On se souvient alors de HP,

dont les acquisitions de Vertica dans le décisionnel et du très polémique

Autonomy nous ont rappelé que le Big Data était bien un édifice construit

pour durer. Comment ne pas mentionner le rachat de Platform Computing

par IBM ou celui d'Aster Data par Teradata en mars dernier.

Et selon les analystes, ce ne serait qu'un commencement. Car en 2012,

l'offre Big Data devrait se consolider, et les éditeurs combler encore les

manques de leur technologie. Si la tendance vers les plates-formes unifiées

se concrétisent, comme semblent le penser EMC et HP par exemple,

l'intégration de technologies de traitement de données en volume à d'autres

briques pourraient bien se produire. Et pourquoi un rapprochement du BPM

(Business Process Management), ou du MDM (Master Data Management) ?


http://www.lemagit.fr/actualites/2240196642/HP-se-renforce-dans-le-decisionnel-en-rachetant-Vertica


http://www.lemagit.fr/actualites/2240198304/Avec-le-rachat-de-Platform-Computing-IBM-a-les-yeux-sur-le-HPC-le-cloud-et-le-Big-Data

http://www.lemagit.fr/actualites/2240198304/Avec-le-rachat-de-Platform-Computing-IBM-a-les-yeux-sur-le-HPC-le-cloud-et-le-Big-Data

http://www.lemagit.fr/actualites/2240194470/Analytique-Teradata-se-paie-Aster-Data-pour-analyser-les-donnees-non-structurees

Page 9 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

La sécurité à l’heure du Big Data

Valéry Marchive, Rédacteur en chef adjoint

Eddie Schwartz, RSI de RSA, ne contredira pas son président exécutif. Pour

lui aussi, en matière de sécurité, il faut adopter une approche de type «Big

Data» : «nous collectons des données de sources multiples - anti-virus, logs

de pare-feu, d'IDS, d'IPS, etc. - mais qui restent en silos. Toute cette

information doit être disponible pour tout le monde, à tout moment. Et il faut

y ajouter des informations sur des paquets de données complets, des

données provenant de sources ouvertes [...] pour mesurer effectivement le

niveau de la menace.» Et d'ajouter à cela que les données de ces sources

multiples «sont dans des formats différents; elles ont besoin d'être

normalisées. Aujourd'hui, c'est mélanger des pommes et des oranges ». Bref,

pour Eddie Schwartz, «il faut construire une structure de données et

commencer à déployer différents composants de décisionnel pour en arriver

à la security intelligence ». Et, accessoirement, cela ne fera qu'accentuer les

tensions pour le recrutement de data scientists déjà de plus en plus

demandé dans le décisionnel classique, comme le relevait récemment

Stephen Brobst, directeur technique de Teradata.

Hugh Njemanze, co-fondateur d'ArcSight, ne le contredirait pas. Interrogé

lors des Assises de la Sécurité, qui se tenaient début octobre à Monaco, il le


http://www.lemagit.fr/actualites/2240198307/Pour-Teradata-lexplosion-des-donnees-BI-pose-de-multiples-questions

http://www.lemagit.fr/actualites/2240198307/Pour-Teradata-lexplosion-des-donnees-BI-pose-de-multiples-questions

Page 10 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

reconnaît bien volontiers : «l'analyse et l'identification de schémas

comportementaux en sécurité, c'est comme dans le marketing ! On parle là

l'algorithmes personnalisés qui cherchent des événements.»

Quand le SIEM se rapproche du décisionnel

Le moteur de corrélation CORR-Engine d'ArcSight Express, illustre bien

cette tendance. Récemment lancée dans sa version 3.0, l'appliance de

gestion des informations des incidents de sécurité (SIEM) de HP s'appuie

bien évidemment sur un système de gestion de bases de données.

Alexandre Depret-Bixio, responsable des ventes ArcSight pour la France,

explique que son moteur analytique Logger s'appuie sur une base données

«propriétaire qui fonctionne par indexation pour gagner en performances.

Pour la corrélation, on a historiquement travaillé avec Oracle, la plus

performante pour l'analytique et la mise en oeuvre de scénarios de

corrélation ». Hugh Njemanze, va plus loin : «nous avons commencé avec

Oracle. Puis nous avons passé 10 ans à affiner sur cette base. Au cours de

cette période, nous avons cherché des alternatives.»

Et, sous la pression d'un marché en «pleine progression» et de la

multiplication des «modèles de corrélation à appliquer», il a fallu «optimiser

et améliorer les performances », explique Alexandre Depret-Bixio. C'est

ainsi qu'ArcSight a été amené à «porter notre savoir-faire acquis avec

Logger sur le moteur analytique de corrélation. Cette nouvelle base de

données s'appelle CORR-Engine ». Proposant les mêmes fonctionnalités


http://www.lemagit.fr/actualites/2240198372/HP-met-son-offre-de-securite-en-ordre-de-marche

Page 11 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

que la mouture précédente, ce moteur de corrélation serait capable, selon

HP, de traiter 2,5 fois plus d'événements par seconde, de fournir des

réponses à une requête de corrélation 5 fois plus vite et de diviser par 20 les

coûts de stockage.

...avant des transferts technologiques

Après le rachat de Vertica par HP, ArcSight aurait-il intérêt à chercher les

transferts de technologies ? Alexandre Depret-Bixio ne ferme pas la porte :

«ils ont une base de données ulta-performante. Et, oui, on peut imaginer des

portages avec ce type de base de données, ou encore de type GreenPlum.»

Toutefois, plus que la vision en quasi temps réel sur l'infrastructure, pour lui,

le SIEM vise la traçabilité, l'analyse post-mortem. Du moins est-il ainsi

appréhendé par le marché : «le marché n'est pas encore prêt pour un

portage de Vertica sur un SIEM. Mais c'est techniquement possible et c'est

probablement l'avenir.» D'ailleurs, il note un changement dans la perception

du marché : «les entreprises prennent conscience du besoin de changer leur

approche de la sécurité, de l'aborder par les métiers, par le gestion du

risque.» D'ailleurs, il «propose un module SAP pour faire du SIEM applicatif

sur les transactions au sein de SAP. Nous sommes capables d'analyser la

conformité des comportements avec les processus dans une structure

applicative comme SAP ».

Toutefois, Hugh Njemanze reconnaît avoir étudié Vertica comme moteur de

base de données alternatif, «par le passé. Mais il y avait quelques



Page 12 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

incompatibilités. C'est pour cela que nous avons du construire quelque

chose de dédié à nos besoins ». Au final, pour lui, «CORR-Engine est

quelque chose qui n'a pas d'équivalent, aujourd'hui, sur le marché ».


Page 13 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Big Data : IBM et HP avancent sur le terrain des appliances analytiques


Hasard du calendrier, HP et IBM ont décidé la même semaine de montrer

leur muscle sur le très tendance segment du décisionnel analytique et du

"Big Data", confirmant ainsi tout l'intérêt qu'ils portent au secteur, mais

également la guerre qu'ils entendent se livrer sur ce front du IT.

HP, de son côté, a livré la première mise à jour de la plate-forme Vertica

Analytics Platform (dans sa version 5.0) de l'ère Leo Apotheker. Le groupe a

en effet annoncé le rachat de ce spécialiste du datawarehouse en février

2011, scellant dans le marbre l'arrivée de l'ex dirigeant de SAP à la tête du

groupe. Le rachat de Vertica avait notamment été motivé par une

technologie de base de données en colonnes, dérivé du projet C-Store

dirigé par le chercheur du MIT Mike Stonebraker, qui a notamment

développé les SGBD Ingres et Postgres.

HP s'est par ailleurs empressé de faire de la solution de Vertica le coeur

d'une appliance Big Data, le HP Vertica Analytics System, un système qui

conjugue Vertica Analytics Platform et l'infrastructure HP Converged

Infrastructure, qui permet notamment "d'analyser en temps réels




Page 14 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

d'importants volumes de données complexes dans des environnements

physiques, virtuels et cloud", explique HP sur son site Internet.

Cette version 5.0 de Vertica Analytics Platform, qui sera prochainement

intégrée à l'appliance HP, est capable d'analyser un pétaoctet de données,

explique HP dans un communiqué. Parmi les améliorations, le groupe de Leo

Apotheker cite notamment de meilleures performances via des systèmes de

filtrages, de segmentation des données, d'optimisation du requêtage, des

possibilités de réplication et de récupération après sinistre, et de

déploiement multi-environnement et de clonage automatique.

IBM place officiellement Netezza face à Oracle

Première également pour IBM, qui devrait inaugurer ce jour mercredi 22 juin

la première appliance Netezza depuis le rachat de la société en septembre

2010. Un segment de l'analytique dans lequel Big Blue a investi environ 15

milliards de dollars ces dernières années, par le biais d'opérations de

croissance externe notamment.

Cette nouvelle appliance Netezza, baptisée High Capacity Appliance, nous

apprennent nos confrères d'Infoworld, devrait permettre d'analyser jusqu'à

10 pétaoctets de données, et ce en quelques minutes, souligne IBM chez

nos confrères. Big Blue souhaitant ainsi adresser le secteur des banques et

des télécoms, ainsi que tout secteur voué à traiter et analyser des gros

volumes de données.


http://h18006.www1.hp.com/storage/server-solutions/vertica-analytics-overview.html

http://www.lemagit.fr/actualites/2240188503/Decisionnel-Avec-Netezza-IBM-marque-Oracle-a-la-culotte

http://www.lemagit.fr/actualites/2240188503/Decisionnel-Avec-Netezza-IBM-marque-Oracle-a-la-culotte

http://www.infoworld.com/d/business-intelligence/ibms-netezza-rolls-out-large-scale-analytic-appliance-912?page=0,0

Page 15 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Cette avancée de HP et d'IBM sur le terrain des outils analytiques de

datawarehouse intégrés sous forme d'appliance vise surtout à venir

concurrencer Oracle et son Exadata, ainsi que le spécialiste du stockage

EMC, présent sur ce segment de marché depuis le rachat de Greenplum en

juillet 2010. En mai dernier, ce même Greenplum, désormais division d'EMC,

a promis pour le 3e trimestre 2011 de sortir sa propre distribution de Hadoop

(Greenplum HP), un framework Java de gestion des données en volume en

environnement distribué, très en vogue dans les milieux du Cloud et du Big

Data. Teradata est également un acteur influent sur le secteur des

appliances de datawarehouse analytiques.


http://www.lemagit.fr/actualites/2240195332/EMC-acquiert-Greenplum-specialiste-du-datawarehouse

http://www.lemagit.fr/actualites/2240195332/EMC-acquiert-Greenplum-specialiste-du-datawarehouse

http://www.lemagit.fr/actualites/2240194220/EMC-World-2011-GreenPlum-va-produire-sa-propre-distribution-Hadoop

Page 16 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Hadoop fêtera la nouvelle année en version 1.0.0

Christophe Bardy, Rédacteur en chef adjoint

Hadoop est désormais en version 1.0.0

Les développeurs d'Apache Hadoop ont finalement publié cette semaine la

version 1.0.0 du "Big Data" du framework d'analyse de données open source.

Cette première version "officielle" succède à la version 0.22.0. Elle devrait

servir de base à de nouvelles moutures chez les principaux fournisseurs de

distributions Hadoop comme HortonWorks et Cloudera, mais aussi le plus

propriétaire MapR. Ce dernier, dont les travaux servent de base à la

distribution Hadoop d'EMC, se distingue de ses concurrents par le fait qu'il a

développé son propre système de fichier en cluster en lieu et place d'HDFS,

le filesystem "officiel" d'Hadoop.

Ce filesystem propriétaire apporte, selon MapR, de nombreux bénéfices

comme le support des accès NFS, mais aussi des performances et une

résilience bien supérieure à celle de HDFS (avec notamment la distribution

des metadonnées sur l'ensemble des noeuds afin d'éviter les points de

faille).


Page 17 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Plus de sécurité et une API REST-HTTP pour le filesystem HDFS

Selon la fondation Apache, cette version 1.0.0 d'Hadoop apporte de

nombreuses améliorations à HDFS et MapReduce (les deux composants au

coeur d'Hadoop) en termes de sécurité (avec par exemple une

authentification basée sur Kerberos), mais aussi de substantiels gains en

matière de performance. WebHDFS, une API HTTP et REST pour le

filesystem HDFS, permet aussi d'accéder via le protocole HTTP au système

de fichiers Hadoop. De nombreux bugs ont aussi été éliminés depuis la

version 0.20.

Notons que la sortie d'Hadoop 1.0.0 s'accompagne aussi de l'arrivée

d'HBase 0.90.5 (l'équivalent dans le monde Hadoop de BigTable chez

Google) qui corrige 81 problèmes identifiés dont 5 bloquants et 11 critiques.

D'importants travaux de développement se poursuivent

Cette version 1.0.0 n'est toutefois qu'une étape dans le développement

d'Hadoop. La version 0.23 actuellement en version alpha apportera par

exemple des capacités de fédération de clusters HDFS (par exemple pour

fédérer des clusters utilisant des noeuds différents). Elle devrait aussi

éliminer certaines des restrictions actuelles en matière de name node

d'HDFS. L'autre nouveauté importante sera l'arrivée d'une nouvelle mouture

de MapReduce (nom de code YARN), qui séparera la gestion de ressources

de la gestion des jobs (job scheduling). Cette mouture devrait notamment se


Page 18 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

traduire par des gains importants en matière de performances, avec des

gains moyens de 100% sur l'ensemble des tâches.

Article suivant


Page 19 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Hadoop : un engouement pour une technologie qui doit encore évoluer


"Le Big Data est assurément un phénomène mondial", se félicite Mike

Olson CEO de Cloudera au sortir de la conférence Hadoop World qui s'est

tenue à New York les 8 et 9 novembre dernier. Il faut dire que cette société,

qui développe sa propre déclinaison de Hadoop - également organisatrice

de l'événement - surfe sur une des technologies les plus en vue dans le

monde du Big Data.

Si cette 3e édition d'Hadoop World, avec ses 1500 participants, montrait

l'intérêt des éditeurs et des entreprises, c'est certainement parce que

Hadoop aborde un pan clé du Big Data : celui du stockage et de la

distribution des traitements de données non structurées et semi-structurées

vers des clusters (en se reposant notamment sur son système de fichier

HDFS). Un volet - ce n'est pas le seul - du "stack" Big Data vers lequel

lorgnent de nombreux d'éditeurs. Leur motivation : adresser la multiplication

des données générées en dehors de l'entreprise. Cyril Meunier, analyste

chez IDC, nous parle des phénomènes des média sociaux, par exemple,

avec lesquels les entreprises tentent de jongler. Le marché du stockage lié à

ces données devraient atteindre 2 Md$ en 2015, au niveau mondial. Sans


http://www.cloudera.com/blog/2011/11/hadoop-world-2011-final-remarks/

http://www.cloudera.com/blog/2011/11/hadoop-world-2011-final-remarks/

http://www.lemagit.fr/article/hadoop-cloudera/8534/1/cloudera-met-accent-sur-les-performances-stabilite-avec-troisieme-distribution-hadoop/

Page 20 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

parler des données liées à la mobilité, aux tablettes et bien sûr au Saas, dont

le modèle a ouvert des passerelles vers des données placées à l'extérieur

de l'entreprise.

Editeurs et utilisateurs y adhérent, presque logiquement. IBM, Sybase,

Informatica, Greenplum, Yahoo - avec désormais Hortonworks -, Oracle, et

Microsoft ont décidé d'aligner certaines de leurs offres sur Hadoop. Entre

temps, la NSA est devenue un contributeur clé dans la communauté du

projet.

Si Hadoop n'est certes pas la seule brique technologique à adresser le

stockage des données non structurées, celle solution se distingue

notamment par son côté Open Source, à coût plus modeste. "Hadoop

contribue à modifier le modèle économique du Big Data", nous confirme

James Markarian, vice président exécutif et directeur technique

d'Informatica, soulignant ainsi que le coût reste l'un des critères n°1 dans

l'adoption du framework. Il cite également l'exemple d'Ebay qui entend

remplacer son infrastructure en place par un environnement reposant sur

Hadoop (le projet Cassini). Mais pas uniquement. Selon lui, le framework est

naturellement plus flexible : "Hadoop permet d'étendre plus facilement des

environnements Oracle, par exemple, que d'autres technologies", souligne-t-

il. Informatica, de son côté, a sorti début novembre un parseur pour Hadoop

(Informatica HParser) qui permet de transformer des données complexes



http://www.lemagit.fr/actualites/2240198220/Microsoft-lache-LINQ-to-HPC-pour-tout-mettre-sur-Hadoop

http://www.lemagit.fr/article/apache-hadoop-nosql/9376/1/la-nsa-soumet-base-donnees-hadoop-fondation-apache/

Page 21 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

non-structurées en format structuré ou semi-structuré dans Hadoop, afin de

les rendre exploitables dans des tableaux analytiques, par exemple.

Un manque de compétences

Reste que "nous n'en sommes qu'au début de l'histoire", nuance James

Markarian. Hadoop n'a pas encore résolu tous ses problèmes. Il cite

notamment un modèle de sécurité et des technologies adjacentes encore

immatures. Autre écueil également pointé du doigt, le manque de

compétences. Il évoque alors une pénurie de développeurs sur le marché.

"Des entreprises sont aujourd'hui prêtes à payer très cher pour s'offrir un

profil Hadoop, mais elles ne trouvent pas. Yahoo, par exemple, commence à

travailler avec des universités pour améliorer le niveau des compétences",

affirme-t-il.

A cela pourrait également s'ajouter le manque de standardisation du

framework. Un point que soulevait James Kobielus, analyste chez Forrester,

rappelant l'absence, par exemple, d'architecture de référence de cluster

Hadoop, de test de compatibilité ou encore de certification. Un frein, selon

lui, aux déploiements dans les entreprises, "qui risquent [aujourd'hui, NDLR]

gros" à implémenter la solution.


http://www.lemagit.fr/article/decisionnel-opensource-hadoop-analyse/9598/1/forrester-est-temps-faire-emerger-organisme-standardisation-pour-hadoop/

Page 22 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

2012 : BI, Open Source, MDM, emploi : l’impact est de plus en plus grand

Dans l’ombre du Big Data, les acteurs du MDM continuent à innover

La Rédaction, LeMagIT

On pourrait penser que le Master Data Management (MDM) n'est plus la

principale préoccupation des éditeurs d'outils de gestion de données. Le

concept n'est pas le plus sexy auprès des départements marketing, et après

avoir été relativement tendance ces 5 dernières années, l'influx «hype» que

pouvaient générer ces produits s'est déplacé sur le terrain du Big Data et de

la virtualisation des données.

A cela s'ajoute également autre chose : le fait que le MDM reste un concept

flou pour de nombreuses entreprises, ce qui nuit un peu plus son image.

«Il existe beaucoup d'incompréhension autour du concept du MDM», affirme

Clive Longbottom, fondateur du cabinet d'analyse britannique Quocirca. « La

plupart des entreprises considèrent le MDM et pensent qu'il ne s'agit là que

de nettoyer leurs données clients pour posséder un unique référentiel de

données. Ce n'est pourtant pas le cas. Il s'agit de se concentrer sur ce qui

compte pour les activités de l'entreprise.»


Page 23 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

«Par exemple, souligne Longbottom, il se peut que les données clients ne

soient pas les principales données maîtres pour une entreprise. Cela peut

être le type d'objet vendu, les fournisseurs ou plus généralement, une

combinaison de différents facteurs - qui nécessite alors d'avoir un ou

plusieurs référentiels de données.»

Aaron Zornes, directeur de la recherche au MDM Institute aux Etats-Unis,

explique, quant à lui, que «le MDM est fort utile pour accompagner les

entreprises vers des processus qu'elles avaient traditionnellement du mal à

mettre en place». Comme par exemple établir un processus de vente

croisée entre différents lignes de produits, entre différents départements,

ou avoir une vue unifiée des clients, ou encore répondre aux contraintes de

conformité juridique, ajoute-t-il.

Selon lui, le concept du MDM est également plus concret que celui du Big

Data. «Je m'insurge à chaque fois que j'entends ce terme. Il ne s'agit pas de

presser un simple bouton et de se retrouver à l'ère du Big Data. La

volumétrie grandissante des données est un phénomène qui existe depuis

plusieurs années.»

Aujourd'hui, le MDM étend ses ramifications pour aller embrasser d'autres

concepts comme le BPM (Business Process Management), l'intégration de

données, la qualité des données et - bien sûr - le Big Data. Et bien que le


Page 24 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

MDM ait quelque peu disparu des écrans radars, il reste une technologie

emprunte d'innovation.

MDM : un monde qui innove

Selon Aaron Zornes, de nombreuses avancées technologiques ont été

réalisées avec le MDM, comme la résolution d'identité, par exemple, qui

repose sur de puissants algorithmes capables de vérifier si une personne

est ce qu'elle prétend être - une fonction clé dans la gestion du risque et la

prévention des fraudes. «Parmi les très récents algorithmes, certains, très

performants, parviennent à déterminer qui est qui, par une simple

association indirecte - par exemple, via un numéro de téléphone ou l'analyse

des liens conjugaux.»

Grâce à une série de rachats, IBM est parvenu à assembler des fonctions de

résolutions de données. Tout comme Informatica ou Tibco qui en ont fait

une de leurs priorités, commente Aaron Zornes.

Le Data Matching, qui permet d'identifier et de consolider les différentes

versions des données produit est une autre catégorie du MDM qui a

bénéficié d'investissements conséquents de la part des éditeurs. Comme

par exemple Oracle avec l'acquisition en janvier 2010 de Silver Creek

Systems, spécialisé dans la qualité de données produites.


Page 25 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Mais la plus forte innovation autour du MDM est celle qui vise à analyser la

masse de données non structurées générées sur le Web. Aaron Zornes

explique : «Les entreprises estiment avoir une vision à 360° de leur clientèle

rien qu'en achetant des données clients auprès de Dun & Bradstreet. Cette

vision n'est en fait que de 75 degrés. Si vous souhaitez avoir une vue

d'ensemble, vous devez également trier la masse d'informations, présente

en ligne, sur Facebook, Twitter et LinkedIn.

Les outils MDM peuvent également aider à agréger des données au format

texte à partir de sources traditionnelles -stockant des données structurées -

au sein d'un référentiel de données maîtres unifié. Et cela a un impact

certain sur les activités. «Etre capable d'injecter des informations comme les

loisirs des clients, quelle équipe de football ils supportent, par exemple,

apporte une vraie valeur pour les commerciaux qui veulent être proches de

leurs clients», affirme-t-il.

De plus, les systèmes MDM s'équipent de technologie in-memory afin de

proposer des fonctions d'analyse de données dynamiques en temps réel,

ajoute-t-il. SAP place par exemple sa technologie de MDM au dessus de son

moteur de traitement in-memory Hana. «Nous allons assister à l'arrivée du

MDM temps réel, certes coûteux, mais cela va devenir la norme.»

Autre exemple, celui de Microsoft, qui prévoit d'intégrer des outils de MDM

gratuits dans la prochaine version d'Office, nom de code Office 15. Ce qui,


Page 26 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

selon Aaron Zornes, devrait contribuer à ouvrir un peu plus le marché du

MDM aux PME.

Volvo : un moteur du MDM

Travaillant depuis 2008 sur un MDM maison, le constructeur automobile

Volvo réfléchit actuellement à différents produits susceptibles de répondre à

ses besoins en matière de MDM. Le directeur du programme Christoph

Balduck affirme que si le groupe apprécie la valeur apportée par les méga-

acteurs sur le terrain de la qualité de données, il pense quant à lui que

certaines innovations sont aujourd'hui entre les mains des acteurs de niche.

«Par exemple, nous regardons attentivement Talend, qui a une offre Open

Source particulièrement performante en migration de données», souligne

Christoph Balduck. Il se dit également impressionné par ce qu'il a vu chez

Orchestra Networks : «Ils réfléchissent autour de la modélisation

sémantique, ce qui constitue, je crois, le futur du MDM. Il s'agit également

d'un des seuls fournisseurs à proposer une offre de MDM dans le Cloud.»

La fonction de contrôle de version DataSpace d'Orchestra, qui permet aux

utilisateurs de simuler les effets en live d'une modification sur les données

maîtres, est particulièrement intéressante aux yeux de Balduck. «Nous

pouvez non seulement contrôler l'impact sur votre modèle de données, vos

contenus et attributs, mais également de quelle façon cela modifie, ou pas,


Page 27 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

votre workflow et vos règles métiers, notamment», explique-t-il. «Si la

simulation ne génère pas d'incidents, les modifications peuvent être

appliquées et mises en production. Cette capacité, celle d'être aussi flexible,

est très créatrice de valeur.»

Toutefois, il reste encore du chemin à parcourir : Aaron Zornes note que les

fournisseurs de technologies ont été très lents à adresser les

problématiques de la gouvernance des données notamment. Seul un

nombre réduit a posé ses jalons sur ce segment, et rare sont ceux qui s'y

sont véritablement engouffrés.

Et il reste encore le problème de l'intégration des différents jeux de données

maîtres, développés à l'intérieur de chaque entreprise. «Il n'existe

actuellement aucune autre solution que d'acheter un hub supplémentaire»,

affirme Aaron Zornes. «Les éditeurs parlent de «über-hub», mais

actuellement personne n'est capable d'intégrer toutes les applications à un

niveau souhaitable pour les entreprises».


Page 28 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Le Big Data, un moteur pour Linux


Que de chemin parcouru en 20 ans, pourrait-on observer à la lecture du

dernier baromètre ("Linux Adoption Trends 2012: A Survey of Enterprise

End Users") publié par la Linux Foundation le 18 janvier dernier. Linux, qui a

fêté son vingtième anniversaire en 2011, devrait ainsi passer sa 21e année un

peu plus ancré dans les systèmes d'information des entreprises, grâce à sa

montée en puissance sur des segments technologiques très porteurs,

comme le Cloud - dont il constitue la base critique -, mais également le Big

Data - la sphère des outils Hadoop fait office de tête de proue de ce

phénomène - ainsi que la virtualisation.

Il est ainsi logique de constater que le taux d'adoption de l'OS Open Source

devrait suivre une courbe ascendante en 2012 auprès des entreprises déjà

adeptes de Linux. Dans son rapport, la Linux Foundation indique que 84 %

des entreprises sondées ont augmenté leurs installations de Linux au cours

de ces douze derniers mois, et confirment leur intention de muscler un peu

plus leurs efforts en la matière en 2012 (à 82%). Une fois les remparts du SI

franchis, Linux a la capacité de se généraliser donc, pourrait-on alors en

conclure. Seulement 21,7% des entreprises sondées (qui utilisent déjà Linux)


Page 29 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

envisagent toutefois d'augmenter leur parc de serveurs Windows alors que

25% envisagent d'en diminuer le nombre.

Mais l'un des points intéressants de cette étude est de constater que la

décision d'opter pour Linux dans les entreprises n'est pas uniquement liée à

une migration depuis Windows ou Unix. 71,6% des entreprises sondées

affirment que Linux a été choisi en première intention pour supporter de

nouveaux services ou des nouvelles applications, ces deux dernières

années. Seulement 38,5 % des nouveaux déploiements Linux avaient pour

origine une migration Windows, contre 34,5 % pour une migration Unix. Il

apparaît donc normal que ces mêmes entreprises aient également fait le

choix de positionner Linux sur leurs applications critiques, dans 69,1% des

cas. La Linux Foundation indique que cela représente une hausse de 10%

par rapport à 2010.

Linux, la solution pour le Big Data

Si le Cloud et la virtualisation sont identifiés comme des moteurs de

l'adoption de Linux, l'étude montre également que les entreprises

considèrent l'OS Open Source comme intrinsèquement lié au concept très

tendance du «Big Data». Environ 72% des entreprises interrogées

envisagent d'utiliser Linux pour supporter cet environnement, constate la

fondation, soulignant que 35,9% préfèrent Windows. Notons au passage

qu'en matière de Big Data, Microsoft s'est récemment rangé derrière

Hadoop, travaillant, en collaboration avec HortonWorks, à rendre




Page 30 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

interopérable le framework Java avec les environnements Windows Server

et Azure.

Reste que tout n'est pas si rose pour Linux. Car il subsiste encore quelques

freins importants à son adoption dans les entreprises. Là, contrairement aux

années passées, les problèmes d'ordre technique ne sont plus cités comme

le barrage n°1 à l'arrivée de Linux dans le SI. Si la problématique technique

est encore citée dans 12,2% des cas (contre 20,3% en 2010), elle est loin

derrière celle liée à la perception qu'ont les dirigeants de Linux, qui

représente,dans 39,6 % des cas, le frein au succès de l'OS dans les

entreprises. L'interopératibilité (à 35,3%), l'absence de compétence (32,5%),

la disponibilité des pilotes (30,6%), la fragmentation (26,8%) et les

problèmes de conformités légales sont les 5 freins plus techniques cités par

les entreprises.

Enfin, dernier élément intéressant de l'étude, les contributions de la

communauté ont monté en puissance en 2011. Si une progression de 12

points du taux de participation aux événements de la Linux Foundation est à

noter, on remarque également que les développeurs se sont davantage

impliqués dans les tests à la correction de bugs, en hausse de 5 points en un

an (cité par 42,7% des entreprises sondées). Reste que 23% affirment ne

pas avoir d'activités au sein de la communauté Linux. Contre seulement

21,8% qui prétendent contribuer aux évolution du code.




Page 31 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Pour Gartner, le Big Data va créer 4,4 millions d'emplois en 3 ans

Reynald Fléchaux, Journaliste

Pour Gartner, les dépenses IT vont progresser de 3,8 % en 2013 et le Big

Data y sera pour beaucoup. Le cabinet d'études, qui tient sa conférence IT

Expo cette semaine à Orlando, estime que d'ici à 2015, 4,4 millions d'emplois

IT seront créés dans le monde pour supporter les besoins des organisations

en matière de Big Data. Pour les seuls Etats-Unis, ce chiffre devrait atteindre

1,9 million.

Surtout, ces créations d'emplois dans le Big Data devraient avoir un effet

induit majeur. Pour chaque job créé aux Etats-Unis dans la gestion de

grands volumes de données, Gartner estime que trois autres emplois

verront le jour hors IT.


Page 32 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Big Data, décentralisation : les nouveaux défis de la Business Intelligence


Un domaine à la fois mature et en pleine évolution. C'est en somme le

constat que dresse Reda Gomery, directeur du conseil en BI au sein de la

SSII Keyrus. Lors d'un récent événement organisé par SAP sur le

décisionnel, l'expert de cet intégrateur spécialisé notamment dans

l'analytique a rappelé la solidité du marché français de la BI, où la croissance

tourne autour des 5 % ces dernières années (pour un chiffre d'affaires total

d'environ 2 milliards d'euros par an). Une progression régulière qui témoigne

de l'extension des usages au sein des organisations, "d'une forme de

maturité", selon Reda Gomery.

Une maturité qui ne signifie toutefois pas que toutes les difficultés sont

aplanies. Le dirigeant estime notamment que les organisations sont

confrontées à un problème d'architecture : "elles doivent imaginer une

structure de la BI leur permettant de produire à la fois des indicateurs

corporate tout en accordant un certain degré d'autonomie aux structures

locales", qui elles aussi veulent produire leurs rapports. Un grand écart

difficile à réaliser si l'on veut éviter la construction de silos d'information et la

multiplication des outils de reporting, créant autant de visions de la réalité de


Page 33 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

l'entreprise qu'il y a de départements dans l'entreprise. A ce premier

dilemme, s'ajoute également le besoin d'améliorer les processus et

méthodes au sein de l'organisation chargée du décisionnel dans l'entreprise,

afin qu'elle soit plus réactive aux demandes des utilisateurs, qu'elle puisse

produire les indicateurs au rythme attendu par les métiers.

Facebook ? La plus grosse base de clients au monde

Pour Reda Gomery, les initiatives pour répondre à ces défis se multiplient. Et

le dirigeant de détailler quelques bonnes pratiques : mise en place de

processus de gouvernance de la BI (régissant les interactions entre MOA et

IT), distinction entre BI industrielle (produisant les tableaux de bord

institutionnels) et BI agile (répondant à des questions métier ponctuelles) ou

encore suivi des audiences permettant de comprendre les usages réels des

outils.

Si l'organisation de la BI en interne et sa rationalisation sont des chantiers à

part entière, les outils connaissent également des évolutions fonctionnelles

importantes. "D'abord, de nombreuses entreprises ne sont pas encore

équipées de fonctions, comme la prévision, la simulation, aujourd'hui

présentes dans toutes les dernières générations d'outils", explique Reda

Gomery. Et se profile, bien entendu, la révolution du Big Data, que le

dirigeant qualifie avant tout "comme une explosion des données exploitées

avec une ouverture vers des informations situées en dehors de l'entreprise.

Aujourd'hui Facebook n'est-il pas la plus grosse base de clients au monde ?"


Page 34 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Un bouleversement pour de nombreux secteurs, comme l'énergie qui, avec

l'arrivée des compteurs intelligents, va collecter une vingtaine de relevés par

jour. Ce qui se traduit par le besoin d'accélérer les cycles de décision, donc

le rythme de production des indicateurs, et d'étendre la BI à de nouveaux

utilisateurs opérationnels.

Article suivant


Page 35 of 131

Dans ce guide


déjà Hadoop




grand










E-guide


Charte Ethique et Big Data : l’Alliance Big Data veut garantir la traçabilité des données


L'Alliance Big Data, un mouvement co-créé en 2013 par l'Aproged

(l'association des professionnels de la maîtrise et de la valorisation des

contenus) et le pôle de compétitivité Cap Digital, ont annoncé la création

d'une

charte éthique et Big Data dont la vocation est de proposer un cadre sur

lequel les entreprises peuvent s'appuyer lors de la mise en place de projets

liés à l'usage de données. Cette charte, présentée lors du forum GFII le 30

mai dernier, représente la deuxième étape de cet ensemble d'acteurs réunis

au sein de l'Alliance Big Data. A l'origine, ce mouvement, raconte Marie-Odile

Charaudeau, déléguée générale de l'Aproged, a pour objectif de créer une

structure représentative du secteur afin de proposer au marché une vision

unique du Big Data, de créer une communauté autour des usages et surtout

«de créer une cohérence pour éviter le buzz marketing et confirmer que cela

correspond bien à une réalité». Outre l'Aproged (pour les contenants et les


http://www.blogbigdata.com/wp-content/uploads/2013/05/Charte_Ethique_BigData.pdf

Page 36 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

outils) et Cap Digital, (pour l'innovation et le business), l'Alliance Big Data

réunit ainsi le groupement français de l'industrie de l'information (GFII) qui

représente les contenus, l'association des professionnels de l'information et

de la documentation (ADBS) pour les utilisateurs et enfin l'Association pour

le traitement automatique des langues (Atala) qui ajoute à cette équation le

monde académique de la recherche. Capgemini s'y est également associé et

finance partiellement le projet. Il s'agit ici de mettre en avant «une

représentativité tant dans les fonctions que dans les approches» du Big

Data, souligne Marie-Odile Charaudeau. Un portail sert aujourd'hui de point

de référence pour fédérer la communauté ainsi que les connaissances et

favoriser le partage entre les membres. Car en matière de Big Data, la

chaîne de valeur est en effet très longue.

Un cycle de vie de la donnée transparent Cette charte vient ainsi

logiquement s'inscrire dans ce projet. Composé de 4 chapitres, ce document

est d'abord né des expériences de l'Aproged et de Cap Digital, accumulées

lors de précédents projets, avant qu'un groupe de travail soit monté avec

l'AFCP et Atala. Cette charte éthique «fournit une trame de description des

corpus de données et sert de mémorandum des points à décrire lorsque l'on

met à disposition des données, que ce soit à usage commercial ou

académique, payant ou gratuit», indique ainsi l'Alliance. En gros, en devenant

signataires, les entreprises offrent une garantie en matière de sourcing,

d'usage, de rémunération - si les données y sont associées. Une façon de

rassurer les acteurs qui pourraient faire usage de ces données en


Page 37 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

garantissant, presque de façon contractuelle, leur transparence et leur

niveau d'éthique. En clair : proposer une traçabilité de la donnée, dans sa

création, son échange, sa diffusion et sa ré-utilisation. Dans le détail, cette

charte invite les entreprises à définir les données ainsi que leur nature, d'en

connaître les sources, son processus de fabrication (données consolidées ?

données primaires ? enrichissement ?), les contributeurs aux données, les

outils utilisés, les processus de validation, la propriété intellectuelle associée

et les licences ou encore si ces données sont liées à des réglementations

spécifiques. Bref tout «pour informer le porteur de projet sur les questions

qu'il doit se poser», explique Charles Huot, président du comité éditorial du

portail de l'Alliance Big Data (et en charge du développement corporate

chez l'éditeur Temis - enrichissement sémantique). Elle invite en somme à

décrire le cycle de vie de la donnée livrée, avant, pendant et après sa

constitution. «Cette charte constitue un premier pas d'information»,

poursuit-il, précisant qu'elle est appelée à évoluer afin de prendre en compte

les spécificités métiers de chaque entreprise. Elle cible toutes les

entreprises manipulant de la donnée, qu'elle soit du monde du logiciel ou

technique, ainsi que du monde des services qui exploitent ces données,

explique-t-il enfin.


Page 38 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

La chasse au «data scientist» est ouverte


Le phénomène est peut-être jeune mais l'adoption croissante des

technologies Big Data et le recours de plus en plus important qu'elle induit

aux scientifiques des données ou «data scientists» génère une véritable

explosion de la demande pour ces profils encore rares. Un profil de

spécialistes capables de dégager des tendances dans d'importants volumes

de données pour en retirer une exploitation fine et pertinente.

A tel point que, selon le New York Times, Seattle et Big Apple « rivalisent

déjà pour être le prochain lieu de référence, au-delà de la Silicon Valley, pour

la formation de ces scientifiques du futur. Nos confrères évoquent ainsi

plusieurs initiatives de Michael Bloomberg, maire de New York, visant à

s'assurer que sa ville sera bien nommée dès lors que l'on parlera Big Data. Et

d'évoquer notamment une participation de 15 M$ au budget de l'université

de New York qui visera notamment à lui permettre d'appliquer le Big Data à

l'étude de problématiques urbaines concrètes telles que l'efficacité

énergétique des gratte-ciels ou la fiabilité du métro. Pour Yann LeCun,

directeur du «Center for Data Science» de l'université, la ville «est sur le

point de devenir la Mecque de la science des données ».


http://www.nytimes.com/2013/04/14/education/edlife/new-york-and-seattle-compete-for-data-science-crown.html?smid=tw-share&_r=2&

http://www.nytimes.com/2013/04/14/education/edlife/new-york-and-seattle-compete-for-data-science-crown.html?smid=tw-share&_r=2&

Page 39 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

De l'autre côté du pays, l'université de Washington à Seattle, n'est pas en

reste. Elle a notamment créé un nouveau doctorat du Big Data. Une demi-

surprise alors qu'elle reçoit des contributions financières généreuses

d'acteurs de l'IT très intéressés par le sujet : Microsoft, Google ou encore

Amazon. Et ce n'est pas tout : elles mettent également à disposition des

données issues du monde réel pour faire plancher les étudiants.

Article suivant


Page 40 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Bertrand Diard (Afdel) : "créer la filière Big Data française, c'est maintenant ou jamais"


Chargé par le gouvernement de réfléchir à la création d'une filière Big Data

en France dans le cadre de l'Afdel (Association française des éditeurs de

logiciels, NDLR), Bertrand Diard, le Pdg de l'éditeur Talend, revient sur les

grandes orientations de son projet, qui doit être officiellement remis à la

ministre de l'Economie numérique Fleur Pellerin dans les prochaines

semaines. Pour le jeune Pdg de l'éditeur Open Source, et également

administrateur de l'association, la France a une fenêtre d'opportunité sur ce

sujet. Mais cette fenêtre va très vite se refermer, compte tenu de l'afflux

d'argent vers le secteur du Big Data.

LeMagIT : Dans quel contexte s'inscrit cette mission sur la création d'une

filière Big Data en France ?

Bertrand Diard : Quand Fleur Pellerin est arrivée au gouvernement, elle a

consulté différents dirigeants de l'industrie du logiciel, dont je faisais partie,

sur les prochaines technologies de rupture. Le constat est cruel : la France a

raté plusieurs bouleversements majeurs, Internet, le Cloud, les moteurs de


Page 41 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

recherche, le mobile... Or, dans les technologies, si nous n'arrivons pas à

nous positionner en avance sur la Silicon Valley, nous sommes pénalisés par

nos capacités financières plus réduites. Qui plus est, tout retard au

démarrage démultiplie les besoins d'investissement afin de combler l'écart.

LeMagIT : En janvier, Fleur Pellerin a confié à l'Afdel une mission - que

vous présidez - pour préciser les contours d'une future filière Big Data à

Paris, dans le cadre de Paris Capitale du numérique. Quelles sont les

principales recommandations de l'Afdel à ce jour ?

B.D. : Même si ces recommandations ne sont pas encore finalisées, et n'ont

pas été présentées officiellement à la ministre, quelques idées se dégagent

déjà. D'abord sur la cible de la filière. Il faut constater que la France arrive

déjà un peu tard sur les infrastructures de support, où Hadoop semble

s'imposer comme un standard et où une société comme Cloudera a déjà

levé quelque 160 M$, ou sur l'intégration. Nous recommandons donc de

cibler les applications qui viendront supporter les métiers, applications qui

aujourd'hui n'existent pas. C'est une opportunité considérable.

LeMagIT : Quels sont les leviers que vous imaginez pour créer ces

sociétés spécialisées dans l'applicatif Big Data ?

B.D. : Nous avons imaginé un écosystème avec 6 composantes. Des

fondations : universités, laboratoires de recherche, l'intégration du Big Data

dans la formation permanente. La mise en place d'un guichet unique


http://www.lemagit.fr/actualites/2240199785/Fleur-Pellerin-veut-creer-une-filiere-Big-Data-a-Paris

Page 42 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

facilitant la création d'entreprises, au sein de Paris Capitale du numérique.

Des infrastructures via des accords de partenariat permettant aux start-up

d'accéder gratuitement pendant leur incubation à des environnements

Cloud, des logiciels d'infrastructure et à l'accompagnement technique

d'ingénieurs issus des grands intégrateurs hexagonaux comme Capgemini,

Atos ou Bull. La création de passerelles avec des structures capables

d'accompagner les créateurs d'entreprise dans la commercialisation de

leurs produits et le marketing. La mise sur pied d'un fonds d'investissement

dédié, à parité public-privé. Ce fonds recevant, c'est le sixième pilier de la

stratégie, une gouvernance dédiée, mélangeant elle aussi les profils issus du

public et du privé et complétée par un "advisory board".

LeMagIT : Quel serait l'investissement que devrait consentir l'Etat ?

B.D. : Dans nos recommandations, nous proposons que l'Etat investisse 150

M€. S'il le fait, je garantis l'apport des 150 M€ complémentaires, issus

d'entreprises ou de fonds à la recherche d'investissements dans le Big Data.

Par mes contacts, je sais que nous pourrons tenir cet objectif. Sur la période

2013-2018, nous disposerions ainsi de 300 M€ ; si on considère que chaque

start-up nécessite 1 à 3 M€ en amorçage, la France aurait alors à disposition

un outil pour créer 100 start-ups sur le créneau. Avec un vrai potentiel de

retour sur investissement. Si on considère qu'une start-up sur dix réussira,

et atteindra en 4 ou 5 ans les 50 M€ de chiffre d'affaires, nous avons calculé

que la création de valeur atteindrait 2,6 Md€. Et que ces 10 éditeurs


Page 43 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

créeraient environ 5 000 emplois. Si la France parvient à ces résultats, elle

sera dans le bon wagon au niveau international. Probablement juste derrière

la Silicon Valley.

LeMagIT : Où en êtes-vous de vos discussions avec le cabinet de la

ministre ?

B.D. : Nous sommes en phase d'itération sur ce projet, le ministère est très

réceptif sur le sujet. Nous espérons présenter nos recommandations

finalisées à la ministre dans les prochaines semaines. Il faut aller vite : soit

nous parvenons à mettre sur pied cette filière dans les 6 mois qui viennent,

soit la France aura raté ce nouveau train.


Page 44 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

A la découverte d'Hadoop

Christophe Bardy, Rédacteur en chef adjoint

La première technologie qui vient à l’esprit lorsque l’on évoque aujourd’hui le

sujet du Big Data est Hadoop est le framework analytique Java développé

au sein de la fondation Apache. Populaire, Hadoop reste toutefois un

mystère pour nombre d’utilisateurs. Pour mieux comprendre les fondements

technologiques d’Hadoop et les différentes briques qui le composent,

LeMagIT s’est plongé dans l’histoire et l’architecture du framework.

Hadoop trouve ses racines dans les technologies propriétaires d’analyse de

données de Google. En 2004, le moteur de recherche a publié un article de

recherche présentant son algorithme MapReduce, conçu pour réaliser des

opérations analytiques à grande échelle sur un grand cluster de serveurs, et

sur son système de fichier en cluster, Google Filesystem (GFS). Doug

Cutting, qui travaillait alors sur le développement du moteur de recherche

libre Apache Lucene et butait sur les mêmes problèmes de volumétrie de

données qu’avait rencontré Google, s’est alors emparé des concepts décrits

dans l’article du géant de la recherche et a décidé de répliquer en open

source les outils développés par Google pour ses besoins. Employé chez

Yahoo, il s’est alors lancé dans le développement de ce qui est aujourd’hui le


Page 45 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

projet Apache Hadoop – pour la petite histoire, Hadoop est le nom de

l’éléphant qui servait de doudou à son jeune fils.

Hadoop : un framework modulaire

Hadoop n’a pas été conçu pour traiter de grandes quantités de données

structurées à grande vitesse. Cette mission reste largement l’apanage des

grands systèmes de Datawarehouse et de datamart reposant sur des SGBD

traditionnelles et faisant usage de SQL comme langage de requête. La

spécialité d’Hadoop, ce serait plutôt le traitement à très grande échelle de

grands volumes de données non structurées tels que des documents

textuels, des images, des fichiers audio… même s’il est aussi possible de

traiter des données semi-structurées ou structurées avec Hadoop.

HDFS : le système de gestion de fichier en cluster au cœur d’Hadoop

Au cœur du framework open source se trouve avant tout un système de

fichiers en cluster, baptisé HDFS (Hadoop Distributed Filesystem). HDFS a

été conçu pour stocker de très gros volumes de données sur un grand

nombre de machines équipées de disques durs banalisés.


Page 46 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Le filesystem HDFS est conçu pour assurer la sécurité des données en

répliquant de multiples fois l’ensemble des données écrites sur le cluster.

Par défaut, chaque donnée est écrite sur trois nœuds différents. Il ne s’agit

pas du plus élégant des mécanismes de redondance, ni du plus efficace,

mais étant donné que l’on s’appuie sur des disques durs SATA

économiques, un cluster HDFS a le bénéfice d’offrir une solution de

stockage très économique par rapport à celui des baies de stockage

traditionnelles. En l’état, HDFS est optimisé pour maximiser les débits de

données et non pas pour les opérations transactionnelles aléatoires. La taille

d’un bloc de données est ainsi de 64 Mo dans HDFS contre 512 octets à

4 Ko dans la plupart des systèmes de fichiers traditionnels. Cette taille de

bloc s’explique par le fait que Hadoop doit analyser de grandes quantités de

données en local.

Avec la version 2.0 d’Hadoop, la principale faiblesse d’HDFS a été levée :

jusqu’alors la gestion des métadonnées associées aux fichiers étaient la

mission d’un unique « name node » ; ce qui constituait un point de faille

unique. Depuis la version 2.0 et l’arrivée de la fonction HDFS High

Availability, le "name node" est répliqué en mode actif/passif, ce qui offre

une tolérance aux pannes. Un autre « défaut » d’HDFS est que le système

n’est pas conforme au standard POSIX et que certaines commandes

familières sur un filesystem traditionnel ne sont pas disponibles.


Page 47 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Il est à noter que si HDFS est le système de fichiers par défaut d’Hadoop, le

framework peut aussi être déployé sur des systèmes tiers, souvent grâce à

des couches de compatibilité. MapR, l’un des pionniers d’Hadoop, a ainsi

développé son propre système de gestion de fichiers qui règle le problème

de fragilité lié aux "name nodes" d’HDFS (en distribuant les informations de

métadonnées sur les nœuds de données) et qui ajoute aussi des fonctions

avancées comme les snapshots, la réplication ou le clonage. Plusieurs

constructeurs de baies de stockage comme EMC, HP ou IBM ont aussi

développé des couches de compatibilité HDFS au dessus de certaines de

leurs baies ; ce qui leur permet de stocker les données d’un cluster Hadoop.

MapReduce : distribuer le traitement des données entre les nœuds

Le second composant majeur d’Hadoop est MapReduce, qui gère la

répartition et l’exécution des requêtes sur les données stockées par le

cluster. Le framework MapReduce est conçu pour traiter des problèmes

parallèlisables à très grande échelle en s’appuyant sur un très grand nombre

de nœuds. L’objectif de MapReduce et de son mécanisme avancé de

distribution de tâches est de tirer parti de la localité entre données et

traitements sur le même nœud de façon à minimiser l’impact des transferts

de données entre les nœuds du cluster sur la performance.


http://www.lemagit.fr/actualites/2240190953/EMC-Isilon-et-Hadoop-retenez-moi-ou-je-fais-un-MapR

Page 48 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

MapReduce est un processus en plusieurs étapes. Dans la phase « Map », le

nœud maitre divise le problème posé en sous-problèmes et les distribue

entre nœuds de traitement. Ces nœuds peuvent en cascade distribuer à

nouveau les tâches qui leur ont été assignées. Les réponses sont ensuite

remontées de nœuds en nœuds jusqu’au nœud maitre ayant assigné les

travaux à l’origine.

C’est alors que s’opère l’étape "Reduce" : le nœud maitre collationne les

réponses remontant des nœuds de traitement et les combine afin de fournir

la réponse à la question posée à l’origine. Il est à noter que les traitements

Mapreduce s’opèrent sur des données structurées sous la forme (clé,

valeur) et que des mécanismes d’optimisation assurent que les traitements

sont distribués de telle sorte qu’ils s’opèrent au plus proche des données

(c’est-à-dire idéalement sur les neuds qui hébergent les données

concernées).

De nouveaux outils et langages pour faciliter les requêtes sur Hadoop

Les API clés de MapReduce sont accessibles en Java, un langage certes

populaire mais qui requiert des compétences bien plus pointues que la

maîtrise d’un langage d’interrogation comme SQL. Plusieurs langages ont

donc émergé pour tenter de simplifier le travail des utilisateurs d’Hadoop,


Page 49 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

dont Pig et Hive. Né chez Yahoo, Pig est conçu pour traiter toute forme de

données. Le langage de Pig est PigLatin, complété par un runtime destiné à

exécuter les programmes rédigés en PigLatin. PigLatin a une sémantique

assez simple. Il permet de charger des données, puis de les manipuler

(appliquer des filtres, des groupements, des opérations mathématiques…).

Chez Facebook, des développeurs ont quant à eux conçu Hive, pour

permettre à des développeurs familiers du langage SQL de manipuler des

données dans Hadoop. Hive dispose d’un langage baptisé HQL (Hive

Query Langage) dont la syntaxe est similaire à celle de SQL. Le service Hive

découpe les requêtes en jobs MapReduce afin de les exécuter sur le cluster.

Au fil des ans, Hadoop a continué à s’enrichir de nouvelles applications,

comme la base de données Hbase, qui fournit des services similaires au

service BigTable de Google. Hbase est une base de données en colonnes

(dans la mouvance NoSQL) qui s’appuie sur le système de gestion de

fichiers en cluster HDFS pour le stockage de ses données. Hbase est

notamment utile pour ceux qui ont besoin d’accès aléatoires en

lecture/écriture à de grands volumes de données. La base intègre des

fonctions de compression et de traitement « in-memory ».

Parmi les autres composants connus, on peut aussi citer la technologie

d’apprentissage Apache Mahout, ainsi que la technologie d’administration de

cluster Zookeeper. Zookeeper est lui-même un service distribué qui permet


Page 50 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

de coordonner l’ensemble des processus distribués sur le cluster, mais aussi

de gérer les configurations de ses différents éléments.

Un écosystème qui ne cesse de s’enrichir

Signalons pour terminer que le périmètre d’Hadoop continue de s’élargir, les

différents développeurs de distributions Hadoop ajoutant progressivement

de nouveaux composants, outils ou langages afin d’enrichir les composants

de base du framework. Cloudera a ainsi récemment publié Impala, sa

technologie de query SQL massivement parallèle, pour le traitement en

temps réel de données stockées dans Hbase ou dans HDFS. Dans le cadre

de son projet Hawq, Pivotal a, quant à lui, porté sa base de données

massivement parallèle Greenplum sur HDFS et étendu sa technologie de

query aux données non structurées et semi-structurées stockées sur HDFS.

Et c’est sans compter sur les multiples intégrations réalisées par des

acteurs des bases de données traditionnelles et de l’analytique, comme

Teradata, Oracle ou Microsoft… Un signe évident du dynamisme de

l’écosystème Hadoop, mais aussi de sa relative jeunesse.


http://www.lemagit.fr/actualites/2240199300/Hadoop-World-avec-Impala-Cloudera-ne-veut-plus-limiter-Hadoop-a-MapReduce

http://www.lemagit.fr/actualites/2240200154/GreenPlum-fait-converger-Hadoop-et-sa-base-de-donnees-MPP-dans-Pivotal-HD

http://www.lemagit.fr/actualites/2240200154/GreenPlum-fait-converger-Hadoop-et-sa-base-de-donnees-MPP-dans-Pivotal-HD

http://www.lemagit.fr/actualites/2240190919/Teradata-se-renforce-dans-Hadoop-avec-Hortonworks

Page 51 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

2014 : le brouillard se dissipe, les datascientists émergent

En 2014, les entreprises devront dépasser le Hype Big Data


Il existe actuellement beaucoup de bruit autour de l'analytique et du Big

Data, mais il est peu probable que toutes ces nouvelles technologies o pour

analyser les données aboutissent véritablement un jour. D'ailleurs parvenir à

différencier les tendances qui aboutiront de celles qui s'éteindront d'elles-

mêmes pourrait bien être la clé de la réussite pour 2014 lorsqu'on aborde

ces deux technologies.

L'une de ces tendances les plus à la mode (ou « hype » comme l'indique

Gartner), dont le développement a débuté en 2013 est celle des

applications qui permettent d'exécuter des requêtes SQL sur des systèmes

Hadoop. Plusieurs éditeurs ont adopté cette stratégie comme Cloudera

avec Impala, Pivotal avec HAWQ et Splunk avec Hunk et les professionnels

du monde de l'analytique ont montré un certain intérêt. Toutefois, indique

Merv Adrian, analyste chez Gartner, ce type d'applications pourrait frustrer

de nombreuses entreprises en 2014.


Page 52 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Selon lui, les applications « SQL-on-Hadoop » ont certes la capacité à tenir

leurs promesses, mais globalement le concept est trop novateur pour avoir

un véritable impact. Et surtout, de nombreuses applications seront

confrontées à des problèmes de performances. Des problèmes qui

pourraient provoquer un rejet de la part des utilisateurs avant la fin de

l'année. D'une façon générale, ces outils sont nouveaux, immatures, et il est

probable qu'ils déçoivent les utilisateurs lorsque leurs limites auront été

comprises », résume-t-il.

Le problème de base est que l'effet de mode a dépassé la réalité. Les outils

de type SQL-on-Hadoop ont certes un rôle à jouer, mais il pourrait bien être

plus limité que celui envisagé par les entreprises. Le buzz autour de Hadoop

est très important, et de nombreux utilisateurs inexpérimentés pensent

pouvoir tout faire avec le framework. Il suffit d'intégrer une technologie

performante, familière auprès des professionnels de l'analytique à SQL pour

que cela provoque inévitablement un important buzz. Adrian soutient que

les utilisateurs devront alors avoir une compréhension plus globale et

réaliste des limites de ces outils, et ce dans l'année.

Pas de pertinence pour l'analytique dans l'Internet des objets

Autre tendance technologique susceptible de décevoir les professionnels de

l'analytique en 2014, l'Internet des objets. Ce concept, qui correspond

principalement à la connexion d'appliances, comme les équipements de

production ou les compteurs, à Internet, n'est pas associé avec le monde de


Page 53 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

l'analytique et de la Business Intelligence. Cela représente pourtant un vrai

potentiel en matière de données,susceptible d'alimenter des modèles

analytiques et améliorer ainsi les capacités de reporting des entreprises

concernées.

Pourtant, William McKnight, de chez McKnight Consulting Group reste

pessimiste sur le potentiel BI de l'Internet des objets. Il ne remet pas en

cause le fait que relier les systèmes domestiques, les terminaux de

navigation et les équipements de production à Internet générera une

richesse évidente en termes de données. Mais relier toutes ces données

entre elles est un autre débat. « Connecter les objets entre eux et donner du

sens à ces imbrications avec de la BI, qui nécessite une planification

descendante, sera un des thèmes des années futures », assure-t-il.

Décortiquer le hype « Big Data »

Sans aucun doute, aucune autre tendance dans le monde analytique n'a été

plus à la mode en 2013 que le Big Data. Mais l'intérêt qui est porté à ce

concept est aussi source de polémique. Le "hype" autour du Big Data serait

entretenu par les médias et le marketinf des constructeur même si pour

certains il est aussi l'illustration de la puissance derrière le concept.

Pour Tony Cosentino, analyste chez Ventana Research, tout dépend de la

façon dont on l'utilise. Selon les études de son cabinet, l'intérêt dans les

systèmes Big Data continue de grandir chez de nombreuses entreprises.


Page 54 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Toutefois, le potentiel offert par la technologie a dépassé les structures de

gouvernance et les employés ne sont pas toujours préparés à insérer le Big

Data dans leurs activités quotidiennes. Le Big Data pourrait potentiellement

avoir un impact important, mais seulement si les bons processus sont mis en

place.

« Le Big Data a tout du terme très à la mode, mais les entreprises en 2014

ont la possibilité de minimiser les risques et de créer de la valeur en alignant

mieux les processus et leurs effectifs sur de nouvelles sources d'information

et des technologies innovantes déjà disponibles sur le marché, affirme-t-il.

Que le Big Data soit ou pas une tendance hype reste encore de la

responsabilité des utilisateurs, ajoute Tony Cosentino. La technologie a

montré son potentiel. Mais elle devra être utilisée à bon escient pour survivre

à 2014.


Page 55 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Big Data : le concept de mieux en mieux compris, les projets en production à la hausse


Non seulement les entreprises comprennent mieux le Big Data , mais elles

commencent également à structurer leur usage. C'est une des conclusions

que l'on pourrait tirer de deux études publiées séparément en ce début

2014, l'une réalisée par JasperSoft auprès de sa communauté d'utilisateurs -

très aguerris à la problématique Big Data et à leur usage dans l'analytique

notamment - , et l'autre émanant du très populaire cabinet d'analystes

Gartner. Le Big Data sort quelque peu de l'ombre pour prendre forme dans

des projets concrets, faut-il ainsi comprendre.

Ainsi, si l'on en croit les chiffres récupérés auprès de la communauté

Jaspersoft (1 600 utilisateurs dont 60% de développeurs), la compréhension

du phénomène Big Data, et de ses implications sur le modèle économique,

se seraient nettement améliorés l'année dernière, déclenchant, par effet

direct, la mise en place de réels projets financés par les entreprises - et

donc supportés par le management. Rangeant ainsi le Big Data aux côtés

des technologies plus matures, capables d'attirer l'attention des DSI, pour la

production - et non plus uniquement pour de simples prototypes.


Page 56 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Ainsi, note Jaspersoft, sur la totalité des répondants à l'étude, 36% affirment

bénéficier « d'une initiative Big Data financée ». Ils n'étaient que 17% il y a 17

mois. Autre signe d'avancée notable du concept dans les entreprises, elles

ne sont plus que 27% à citer l’incompréhension comme frein au déploiement

de projets Big Data, soit une baisse de 49% depuis la précédent étude,

rapporte encore l'éditeur spécialisé dans le décisionnel. Elles ne sont

d'ailleurs que 20% à ne pas entrevoir de cas d'usage concrets des données

issues des Big Data - contre 56% en août 2012.

Hausse de l'engagement dans les projets

Mieux encore, sur les 56% des répondants ayant initié un projet lié au Big

Data, 32% sont en phase de développement et de déploiement, alors que

23% parlent encore de « phase de planification ». Au total, sur la totalité des

utilisateurs Jaspersoft ayant répondu, il apparait encore que 42% n'ont

abordé le concept du Big Data que lors d'expérimentation ou de recherche,

souligne toutefois l'étude, sous-entendant qu'il reste encore du chemin à

parcourir, tout en pointant un mieux certain.

Autre indicateur clé de cette étude : à 48%, c'est analyse de la clientèle qui

truste actuellement les cas d'usages des Big Data chez la communauté des

utilisateurs JasperSoft. Pour 45%, il s'agit de l'analyse d'expérience. Puis

suivent des usages très portés sur la sécurité et la protection de l’entreprise

: 37% des usages portent sur l'analyse des risques, 30% des menaces et 28

% de la conformité. Quelque 22% citent également l'analyse des fraudes.


Page 57 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Pour 26%, le Big Data trouve son utilisation dans l'optimisation de

campagnes et 23% dans le câblage localisé.

Et en France, les entreprises seraient tout aussi réceptives, nous confirme

Georges Carbonnel, Responsable Grands Comptes chez Jaspersoft, dans

un email envoyé à la rédaction. « Nous voyons de plus en plus d'intérêt pour

le Big Data et de plus en plus de projets en France. La tendance est

extrêmement similaire à celle des Etats-Unis. Les nouvelles technologies Big

Data les plus utilisées sont MongoDB et Hadoop. Un fort pourcentage de

ces projets tourne autour de la relation client et la capture et l'analyse

d'informations nouvelles notamment en provenance du web et des réseaux

sociaux », indique-t-il. Plus globalement, il note « un intérêt de plus en plus

poussé dans des domaines de plus en plus variés (de l'e-Commerce à

l'Industrie en passant par le high tech) ». Un début de maturité en somme.

Le Chief Data Officer progresse dans les entreprises

Il est ainsi ainsi logique que les entreprises réfléchissent à structurer

concrètement le phénomène et commencent très concrètement à recruter

des spécialistes de la donnée. Si la pénurie de profils liés aux technologies

Big Data revient sur les lèvres de tous les observateurs du secteur, Gartner

a de son côté recensé plus de 100 Chief Data Officer (CDO - un

responsable des données) dans des entreprises mondiales, et plus

particulièrement dans le secteur des banques, des assurances et dans le

secteur public. Le cabinet a également constaté les premiers recrutements


Page 58 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

significatifs dans le secteur de la publicité en 2013. Signe d'une démarche

qui se propage. D'ailleurs, en 2015, prévoit Gartner, quelque 25% des

grandes entreprises dans le monde auront recruter des CDO.

Article suivant


Page 59 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

7 questions à Franck Bardol, Data Scientist


Avec une formation initiale en gestion d’entreprise et en économétrie

statistique, Franck Bardol est venu au métier de Data Scientist. Avec un

profil mixte entre ingénieur de développement et analyste quantitatif, il est

devenu consultant auprès des banques et des services financiers. Il est

également co-organisateur d’une rendez-vous mensuel, animant ainsi une

communauté d’experts de cette précieuse science des données.

LeMagIT : Comment décririez-vous le métier de Data Scientist ?

Franck Bardol : Il s’agit d’un profil multi-casquette qui nécessite plusieurs

compétences. La première compétence est la programmation pour pouvoir

programmer ses propres algorithmes. Puis arrivent les statistiques et les

mathématiques. Pour utiliser les modèles mathématiques et exploiter les

librairies pour la Data science, il faut tout de même avoir quelques notions

d’un niveau de première à troisième année de Fac. A cela s’ajoute un peu

d’intuition et du temps. Car on procède sur le mode essai - erreur. Cette

profession repose sur une dimension très empirique [¦]


Page 60 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Les demandes seront différentes en fonction du profil de Data Scientist. On

trouve par exemple beaucoup de mathématiciens et de physiciens qui se

reconvertissent dans la science des données. On peut leur demander de

concevoir l’algorithme, depuis le modèle mathématiques puis tous les

enchaînements informatiques qui s’y greffent. Celui qui utilisera cet

algorithme aura un profil différent.

Pour se dire Data Scientist, il faut avoir plusieurs casquettes. Celui qui

n’aurait qu’une seule de ces casquettes, ne pourrait pas prétendre à cela. Il

s’agit davantage d’un assemblage de compétences hétéroclites. Pour moi, la

Data Science est une science inductive, une science de l’empirisme. On part

des data et ce sont elles qui vont fournir le modèle. On cherche des

corrélations et des structures qui existent au sein de la donnée. Une fois que

l’on a trouvé ces corrélations, le Data Scientist ne vas pas forcément

essayer de les expliquer. On va essayer de les réutiliser de façon à réaliser

des prédictions.

LeMagIT : L’analyse est donc le travail d’une autre personne ?

Franck Bardol : Pas forcément. Le Data Scientist a construit le modèle

mathématique et réalisé des prédictions - est-ce que le client, lors d’une

prochaine itération, va rester fidèle ou alors partir ? Va-t-il acheter ou non,

par exemple . Il connait le modèle, mais ensuite il y a de grande chance que

ce modèle soit davantage entre les mains avec un profil de business

developer ou lié encore au Marketing. Sur un axe davantage orienté métier.


Page 61 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

LeMagIT : Avec cette spécificité où s’enchevêtrent plusieurs profils, la

formation semble être nécessaire. Où en est-elle ?

Franck Bardol : Des formations commencent à se mettre en place. J’en ai

moi-même suivi une, via le CNAM, en traitement de l’information. De

nombreuses écoles d’ingénieurs s’y mettent également, comme Mines

ParisTech, l’Ensimag (un cursus est prévu pour l’an prochain), plutôt orienté

Big Data. Plus tourné vers le business, HEC Paris a également sorti un

cursus. La première promo devrait sortir cette année. D’autres sur le modèle

prédictif sont également en cours.

LeMagIT : Dans le cadre de vos prestations aux entreprises, rencontrez-

vous d’autres Data Scientists ou s’agit encore d’une denrée rare ?

Franck Bardol : Je n’en rencontre pas énormément dans les entreprises.

C’est plutôt lors de rendez-vous, comme celui que j’organise [il s'agit de la

rencontre organisée par le Paris Machine Learning liant entrepreneurs,

chercheurs et développeurs, NDLR] où , pour le moment, nous pouvons en

rencontrer, plutôt que dans une entreprise lambda. A part chez de grands

noms, comme Google, où on peut trouver un étage complet de data

scientists. En France, ce n’est pas encore le cas.


Page 62 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

LeMagIT : Existe-t-il aujourd’hui des secteurs d’activités plus actifs que

d’autres en matière de Data Science ?

Franck Bardol : Les services financiers et les assureurs y sont entrés

différemment. Les premiers par les systèmes de trading et les seconds par

la détection de fraudes. C’est par ces biais qu'ils ont intégré la data science

à leur processus. La sécurité sociale et Pôle Emploi sont également très

intéressés par la détection de fraudes, pour identifier les faux profils. Ils ont

mis en place des algorithmes pour répondre à ces problématiques. Au

départ, il sont venus à la Data Science sous la forme de Business

Intelligence traditionnelle, reposant sur des entrepôts de données et de

l’ETL, associé à l’intervention d’un analyste business. Mais l’arrivée de la

Data Science et du Big Data est en train de révolutionner le secteur et de

rendre quelque peu désuètes les anciennes méthodes.

Tous les domaines sont impactés par les Data Scientists. Dans la voyage

(par exemple chez Amadeus), pour déterminer, par exemple, le meilleur

moment de la journée pour changer le prix du billet. Dans les télécoms, j’ai

participé à l’élaboration d’un modèle prédictif où l’on a intégré toute l’activité

client d’un opérateur (combien de temps téléphone-t-il, à qui il téléphone,

est-ce qu’il téléphone à l’international, téléphone-t-il à un service client). A

partir de son profil, on parvient à déterminer à 95% de réussite s’il va quitter

l’opérateur ou pas.


Page 63 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

LeMagIT : Voyez-vous les modèles économiques se modifier autour de la

donnée ?

Franck Bardol : Complètement. De nouveaux modèles économiques

commencent à émerger. Souvent auprès des start-ups, qui adoptent le

modèle Freemium. De nouveaux usages autour de la donnée apparaissent.

Les entreprises vont se rendre compte que les Data Scientists peuvent

résoudre certains problèmes, mais également participer à l’élaboration de

nouveaux services autour de la donnée. Les entreprises vont de plus en plus

comprendre ce qu’on peut en faire. Les décideurs et les entrepreneurs vont

mieux appréhender les cas d’usage.

LeMagIT : Quel est aujourd’hui le niveau de l’outillage du Data Scientist ?

Franck Bardol : Les outils sont aujourd’hui essentiellement Open Source. Il y

a 3 ou 4 ans, il fallait tout recoder soi-même sur des logiciels très chers et

coder l’algorithme. C’est aujourd’hui terminé. On trouve de bonnes librairies

Open Source, comme scikit-learn, développée par des Français. Vous

l’intégrez dans votre programme et vous pouvez directement utiliser des

outils de Data Science. On trouve également des Web Apps, comme

BigML.com. Cette application Web construit votre modèle. Vous devez juste


Page 64 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

lui donner en entrée vos données et vous lui indiquez les prédictions que

vous souhaitez réalisez. Il fait le travail du Data Scientist.

Article suivant


Page 65 of 131

Dans ce guide


déjà Hadoop




grand










E-guide


Hadoop : les projets qui ont le vent en poupe


Il est celui par lequel Hadoop est venu. Doug Cutting, créateur du framework

clé du Big Data, aujourd’hui architecte en chef de Cloudera, est revenu avec

la rédaction sur les rapports de la société avec Intel, les projets qui montent

dans la sphère Hadoop et sur les cas d’usages. Echanges avec ce géant du

Big Data.

"Nous investissons dans Spark pour qu'il soit parfaitement

intégré à l’écosystème"

LeMagIT : Quels sont les projets Hadoop qui ont retenu votre attention et

sur lesquels vous travaillez au sein de Cloudera ? "

Doug Cutting : Nous essayons de réduire l’écart entre ce que propose le

projet Open Source Hadoop et ce dont les entreprises ont véritablement

besoin. Et dans tous les cas, cela signifie pour nous d’investir encore


http://www.lemagit.fr/essentialguide/Guide-Tout-savoir-sur-Hadoop


Page 66 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

davantage dans l’Open Source et continuer à intégrer des nouveaux projets

à la plateforme.

Mais tout en ajoutant des composants en dehors de la communauté Open

Source, notamment en matière d’administration. Au final, nos clients voient

de la valeur là où ils sont aujourd’hui limités.

Nous investissons également dans des technologies comme Spark (NDR :

un moteur alternatif à MapReduce qui ne se limite pas au batch) afin que ce

projet soit parfaitement intégré au reste de l’écosystème.

Nos clients voient de la valeur là où ils sont aujourd’hui limités

Nous avons travaillé sur la sécurité, qui est un élément clé. Il s’agit de

s’assurer que les données soient bien chiffrées à tous les niveaux, y compris

dans Spark. La sécurité est un élément critique pour aider les entreprises à

adopter Spark dans des industries très réglementées.

Spark est un excellent projet, mais sans fonctions de sécurité, il n’est pas

très utile. Nous travaillons également à en faire un backend pour Hive (NDR :

technologie permettant de faire des requêtes de type SQL sur un cluster

Hadoop dans un contexte de Datawarehouse) pour créer un moteur SQL

batch optimisé et cela sera intégré très prochainement à notre plateforme.


http://www.lemagit.fr/actualites/2240235930/Spark-un-projet-qui-interesse-le-monde-du-Big-Data


Page 67 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Des travaux autour de Kafka (NDR : bus de messages) sont également en

cours.

LeMagIT : Quels sont aujourd’hui vos rapports avec Intel ?

Doug Cutting : Les orientations que nous poussons sont aussi le fruit de

notre collaboration avec Intel. Tout l’écosystème doit bien fonctionner sur

les nouveaux hardwares Intel au moment de leur sortie. Ils partagent leur

roadmap avec nous afin d’être sûr de la compatibilité avec les capacités

hardware.

Le checksum a déjà été intégré, ainsi que le chiffrement de fichiers. Nous

travaillons également sur les nouveaux systèmes de mémoire d’Intel. Nous

avons accès aux versions en avance de phase pour nous assurer qu’Hadoop

fonctionnera de pair avec ces nouvelles fonctions. C’est l’objectif de notre

collaboration avec Intel.

Si vous êtes une société comme Intel et que vous passez beaucoup de

temps à investir sur le hardware, vous avez la volonté que ce hardware

puisse véritablement être utilisé et créer de la valeur immédiatement.

LeMagIT : Intel développait à l’origine sa propre distribution Hadoop.

Cloudera a-t-il rapproché ces développements de sa plateforme ?


http://www.lemagit.fr/actualites/2240217118/Intel-choisit-finalement-Cloudera-pour-ses-developpements-Hadoop

Page 68 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Doug Cutting : Absolument. Les travaux portant sur le chiffrement au repos

des données dans HDFS ont été réalisés par Intel. Nous collaborons

désormais avec leurs équipes de développement. Leurs travaux ont été

intégrés à CDH ainsi qu’au cÅ“ur Open Source d’Hadoop.

Les différentes briques de CDH, la distribution Hadoop de Cloudera

Pour l’essentiel, la distribution d’Intel a été intégrée, y compris la possibilité

d’optimisation avec le hardware du groupe, le chiffrement et un certain

nombre d’autres fonctions. Nous permettons aussi aux clients de la

distribution Intel de devenir facilement client Cloudera.

LeMagIT : Cela illustre-t-il un point de départ pour Cloudera. Devrions-

nous assister à d’autres partenariats clés avec l’industrie du hardware,

notamment avec le monde ARM, de plus en plus actif dans le domaine

des serveurs ?

Il est fort probable que nous supportions

l'architecture ARM

Doug Cutting : Il est fort probable que nous supportions cette architecture.

Je ne pense pas que nous ayons encore été approchés.


http://www.lemagit.fr/definition/Hadoop-Distributed-File-System-HDFS

http://www.cloudera.com/content/cloudera/en/products-and-services/cdh.html

Page 69 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Nous sommes des partenaires de longue date de HP, Dell et Oracle via une

série d’appliances. Nous collaborons également avec Teradata, Amazon et

Microsoft.

Nous essayons de nouer des partenariats avec autant de sociétés que nous

pouvons. Ce que nous faisons est complémentaire de ce que font ces

fournisseurs de technologies.

LeMagIT : Cela aide-t-il Cloudera à être plus près des vrais besoins des

entreprises ?

Doug Cutting : Cela nous aide à proposer de meilleurs produits et mieux

nous intégrer avec le hardware. Avoir Intel comme partenaire nous ouvre

également beaucoup de portes. En théorie, ils vendent des puces, mais Intel

dispose de nombreuses connexions dans l’industrie. Ils forment un canal clé

pour nous.

Ils nous ont ouvert le marché en Chine, car le groupe y était déjà présent.

Cela va donc bien au-delà de cette collaboration autour du hardware. Ils

sont également des utilisateurs d’Hadoop en interne et nous donnent des

retours pour améliorer la plateforme. Il s’agit d’un cercle vertueux pour

optimiser également les puces d’Intel.

LeMagIT : Vous avez cité précédemment des projets qui montent dans la

sphère des technologies Hadoop, comme Spark, Storm (outil de Complex


Page 70 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Event Processing) ou Kafka. Des projets complémentaires à Hadoop.

Pensez-vous que ces projets finiront à terme intégrés au cÅ“ur Hadoop ?

A terme, Spark remplacera MapReduce

[mais] Hadoop et Spark ne fusionneront

pas

Doug Cutting : Nous créons une distribution à partir du cÅ“ur Open Source

d’Hadoop. Nous devons donc sélectionner les composants pour lesquels

nous allons proposer du support et dans lesquels nous allons investir. Il

s’agit d’une opération délicate.

Parfois, nous devons anticiper ce que pourrait être à terme la demande des

clients. Avec Spark, nous avons été des "early adopters" car nous pensions

que ce projet allait être utile. Un outil meilleur que MapReduce, capable de

supporter davantage d’opérations.

Nous devons également nous adapter lorsque des clients utilisent déjà une

technologie et souhaitent donc un support . Toutefois, nous ne devons pas

surcharger nos contributions. Nous ne pouvons pas supporter une centaine

de projets. Nous essayons de ne supporter que des projets dans lesquels

nous disposons d’une expertise et dans lesquels nos équipes peuvent

contribuer.


Page 71 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Les utilisateurs Linux ne maintiennent pas le Kernel. Ils utilisent une distribution. C’est pareil dans le monde Hadoop

Hadoop et Spark sont deux projets différents au sein de la fondation

Apache. Ils sont complémentaires et ne fusionneront pas. Spark peut aussi

s’exécuter en dehors d’ Hadoop.

Je ne pense pas que les fusionner apporte un quelconque gain. Ils sont

utiles en tant que projets séparés et autonomes. A terme, Spark remplacera

MapReduce. Ce dernier sera toutefois conservé dans certains cas.

Hadoop n’est jamais utilisé seul. La technologie est utilisée avec d’autres

outils. Personne ne télécharge Hadoop et l’exécute en l’état. Très peu de

personnes installent et maintiennent Hadoop directement depuis la

fondation Apache. A l’image des utilisateurs Linux qui ne maintiennent pas le

noyau Linux et ne chargent pas les paquets dont ils ont besoin. Ils utilisent

une distribution.

C’est pareil dans le monde Hadoop. Il existe ainsi plusieurs distributions,

dans un environnement concurrentiel sain.

LeMagIT : Quels sont les cas d’usages clé d’Hadoop identifiés par

Cloudera ?


Page 72 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Doug Cutting : Dans certaines industries, nous avons identifié des patterns

d’usage Big Data.

Dans les services financiers, on s’intéresse à l’évaluation des risques et à

avoir une vision temps réel de leur exposition au risque.

Nous avons identifié des patterns d’usage, ce sont les mêmes outils configurés de la même façon dans 90% des cas

Ce qui est critique pour eux mais qui est difficile à mettre en place. Mais il

existe des outils que l’on peut configurer d’une certaine façon pour réaliser

ces opérations. Nous pouvons désormais décrire cela et lorsqu’une banque

vient nous voir et a une problématique autour de l’évaluation du risque, nous

pouvons lui présenter une typologie de configuration, une sorte de blueprint.

Nous pouvons la généraliser.

La prochaine étape consiste à créer une application prête à être utilisée.

Nous n’en sommes pas encore là. Mais cela devrait arriver dans les

prochaines années. La détection de fraude est également un autre cas

d’usage. Encore une fois, ce sont les mêmes outils configurés de la même

façon dans 90% des cas. Ces solutions se sont généralisées cette année et

nous pouvons aider les clients à les reproduire.


http://www.lemagit.fr/essentialguide/Big-Data-et-analytique-de-nouveaux-eclaireurs-pour-les-entreprises

http://www.lemagit.fr/essentialguide/Big-Data-et-analytique-de-nouveaux-eclaireurs-pour-les-entreprises

Page 73 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Nous n’avons pas du code préconfiguré, mais une série de documentations

que nous pouvons fournir aux entreprises qui peuvent rassembler une

équipe compétente via nos services professionnels.

Nous utilisons cela également pour mener les développements du code

lorsque par exemple nous identifions une fonction qui manque et qui serait

très utile. Des nombreuses fonctions de sécurité ont été bâties en ce sens

dans Hadoop.


Page 74 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Les architectes Big Data, très sollicités en 2014


2014 a été témoin d'une évolution en matière de développement et de

déploiement d'architecture Big Data. Les utilisateurs se sont en effet

devenus aguerris aux technologies NoSQL et autres alternatives aux bases

de données relationnelles. Quant à Hadoop 2, il s'est frayé un chemin dans

l'analytique opérationnel, au-delà du traitement en mode batch du

framework et de son caractère distribué.

L'intérêt pour les technologies Big Data a souvent été lié à la plate-forme

Hadoop 2, qui est apparu fin 2013. Cette version a déconnecté HDFS du

moteur et du modèle batch de MapReduce, portant ainsi Hadoop vers de

nouveaux usages, comme par exemple les requêtes interactives.

Beaucoup de bruits autour d'Hadoop et de Spark

Toutefois, la transformation des PoC en production n'a souvent pas eu lieu,

repoussant ainsi cette bataille à 2015.


Page 75 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Les architectes Big Data et autres responsables de la donnée ont

également été très occupés à tenter de se familiariser avec les nouveaux

moteurs de traitement In-Memory, désormais intégrés au sein des

traditionnelles bases de données relationnelles.

Pourtant, ici encore, les discussions autour du Big Data tournaient

essentiellement autour des alternatives non relationnelles - et il y a

beaucoup à dire. « Une fois la décision prise qu'une base de données SQL

monolithique n'était pas nécessaire, l'offre de technologies émergentes qui

peut être considérée est aujourd'hui abondante », souligne Joe Caserta,

fondateur et président du cabinet de conseil Caserta Concepts.

Ce bruit assourdissant autour d'Hadoop a toutefois été quelque peu atténué

par un autre phénomène Open Source : Spark. Le moteur de traitement

analytique fonctionne de pair avec Hadoop 2 pour accélérer les traitements

en mode batch, beaucoup plus rapidement qu'avec MapReduce.

Mais Spark a également attiré l'attention pour ses usages dans le monde

du Machine Learning, une autre tendance clé des douze prochains mois.

MongoDB, Couchbase, Aerospike : NoSQL devient une tendance lourde

MongoDB, Couchbase, Aerospike et bien d'autres : la litanie des bases

NoSQL a fortement résonné en 2014. L'apparition de nouvelle technologie





Page 76 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

NoSQL a rythmé le quotidien, comme l'a remarqué Michael Simone,

Directeur de l'ingénierie et de la plateforme CitiData chez Citigroup, à

l'occasion de la conférence MongoDB World qui s'est déroulée à l'été 2014.

NewSQL, la passerelle entre les mondes SQL et NoSQL

Ceci est révélateur d'une réalité : les déploiements NoSQL ont progressé

pour traiter des vastes quantités de données, souvent de nouvelles formes

d'information en provenance du Web, qui s'insèrent difficilement dans les

schémas très rigides des bases de données relationnelles.

Par exemple, les bases NoSQL ont parfois été utilisées comme Datastore en

mémoire pour faciliter les prises de décisions en temps réel à partir de

données marketing Web, pour alimenter un système de support technique

qui aident les opérateurs de centre d'appels à suivre l'activité d'utilisateur et

ainsi résoudre les problèmes techniques. Ou encore pour stocker des

données en vue d'analyser les tendances sur les media sociaux.

Parfois, certains responsables de la données ont opté pour des

technologies dites "NewSQL", dont l'ambition est de créer une passerelle

entre le meilleur des mondes SQL et NoSQL.


Page 77 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Bâtir le Big Data du futur : défi de 2015

L'intégration de ces outils Big Data aux architectures de données des

entreprises a aussi marqué 2014.

Construire un environnement où toutes les technologies

cohabitent a été une grosse difficulté en 2014

Vince Dell'Anno, Accenture

« La plus grosse difficulté en 2014 en termes de Big Data tient aujourd'hui à

l'architecture en elle-même - comment construire un environnement au sein

duquel toutes les nouvelles technologies cohabitent », explique Vince

Dell'Anno, Directeur de la gestion de l'information pour le secteur de la

Supply Chain chez Accenture.

Selon lui, une des principales difficultés pour les DSI sera de pouvoir gérer

des environnements hybrides, qui permettent à des milliers d'utilisateurs

finaux d'accéder à des données récentes.

En fait, élaborer des systèmes Big Data pouvant être dimensionnés et les

intégrer avec les entrepôts de données, avec les outils analytiques et avec

les outils opérationnels en place a été un thème central de 2014.


Page 78 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Parfois, les nouveaux outils ont poussé les administrateurs à renoncer à

leurs façons de travailler autour des schémas de données.

Hortonworks lève 100 millions de dollars en bourse en 2014

Sur le marché Hadoop, il reste de nombreuses terres encore

vierges

Tony Baer, Analyste chez Ovum

Comme un symbole de l'année, 2014 s'est également terminée par l'entrée

en bourse d'Hortonworks, l'un des pure-players des distributions du

framework Open Source.

La société, qui compte notamment HP à son capital, a levé 100 millions de

dollars dans cette opération. Ce qui semble plutôt modeste au regard des

fonds versés par les investisseurs durant l'année.

Mais pour Tony Baer, analyste chez Ovum, cette entrée en bourse était

davantage révélateur des perspectives autour d'Hadoop. « Il s'agit d'un

marché inexploré, les ventes sont toutes récentes avec peu de

concurrences », soutient-il. « Il reste de nombreuses terres encore vierges. »


Page 79 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

En 2015, d'autres acteurs du monde Hadoop et NoSQL devraient également

faire leur entrée sur les marchés boursiers américains.

Article suivant


Page 80 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Hadoop : MapR package trois scenarii d’usage


MapR, l'un des pure-players du monde Hadoop, a profité de la conférence

Strata+Hadoop World qui s'est tenue la semaine dernière aux Etats-Unis,

pour déployer un peu plus sa stratégie : rapprocher Hadoop du monde des

entreprises. Dans ce cadre, la société a présenté ce qu'il baptise des kits de

démarrage Hadoop (MapR Quick Start) qui permet de déployer la

distribution MapR selon des scenarii définis. Une façon donc d'accélérer

l'adoption du framework Java d'une part, mais également de le porter au

plus des usages des entreprises.

Trois scénarri Big Data ont été identifiés par MapR : optimisation d'un

entrepôt de données avec Hadoop pour accroitre par exemple la capacité

de traitement ; renforcement d'un système de sécurité SIEM via une

capacité accrue d'analyse de logs ou d'incidents ; et mise en place d'un

moteur de recommandation, comme on peut le trouver chez nombre

d'acteurs du e-commerce.


http://www.lemagit.fr/actualites/2240207504/Hadoop-2-veut-etendre-le-champ-dapplication-dHadoop-au-dela-du-Batch

http://www.lemagit.fr/actualites/2240207504/Hadoop-2-veut-etendre-le-champ-dapplication-dHadoop-au-dela-du-Batch

http://www.lemagit.fr/definition/Big-Data-Gestion

http://www.lemagit.fr/conseil/Big-Data-les-entrepots-de-donnees-nont-pas-dit-leur-dernier-mot

http://www.lemagit.fr/conseil/Big-Data-les-entrepots-de-donnees-nont-pas-dit-leur-dernier-mot


http://www.lemagit.fr/conseil/Les-bonnes-pratiques-du-SIEM-pour-la-detection-des-attaques-avancees

http://www.lemagit.fr/conseil/Les-bonnes-pratiques-du-SIEM-pour-la-detection-des-attaques-avancees

Page 81 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Un parckage avec des bonnes pratiques

Ces scénarri correspondent à des versions de Quick Start (commercialisées

30 000 dollars chacune) et comprennent « des modules d'ingestion de

données, des gabarits de solutions, deux à quatre semaines de services

professionnels, une formation intégrée et un petit cluster Hadoop qui peut

être facilement étendu selon les exigences de la solution », explique MapR

dans un communiqué. L'éditeur affirme s'être appuyé sur des meilleures

pratiques.

Ces kits de démarrage Hadoop s'inscrivent dans une stratégie globale de

l'éditeur, qui depuis son origine a souhaité faciliter l'intégration d'Hadoop au

SI existant des entreprises. Cela passe ainsi par un système de fichiers

maison MapR FS, reposant sur NFS - plus commun en entreprise - mais

également par le biais de collaboration avec HP notamment autour de HP

Vertica Analytics Platform on MapR, ou dans la mise à disposition d'un bac à

sable Hadoop pour donner aux développeurs la possibilité de tester le

framework.


http://www.lemagit.fr/actualites/2240207836/Les-benefices-dHadoop-surpassent-ils-les-problemes-de-la-technologie

http://www.lemagit.fr/actualites/2240207836/Les-benefices-dHadoop-surpassent-ils-les-problemes-de-la-technologie

http://www.lemagit.fr/actualites/2240214309/MapR-veut-pousser-Hadoop-plus-loin-dans-les-entreprises

http://www.lemagit.fr/actualites/2240214309/MapR-veut-pousser-Hadoop-plus-loin-dans-les-entreprises

Page 82 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

2016 : de plus en plus de projets et des enjeux de sécurité

Big Data Paris : l’heure des projets a (légèrement) sonné


Une époque charnière. C’est ce que nous aurions pu retenir de ce premier

jour de l’édition 2016 du salon Big Data Paris , qui s’est ouvert aujourd’hui à

Paris. Si cet événement a pour vocation de réunir le gratin de l’écosystème

de la donnée en France côté fournisseurs et prestataires, il est également

marqué par un afflux important de partenaires, clients et prospects qui ont

confirmé leur venue. Les organisateurs attendent en effet quelque 10 000

personnes. Ils ont ainsi déplacé Big Data Paris vers la Porte Maillot,

délaissant le CNIT devenu trop exigu.

Il faut dire que le marché de la données en France, et par extension celui du

Big Data, connaît actuellement une progression révélatrice de l’avancement

des entreprises dans leurs projets. Selon une étude menée par le cabinet

Pierre Audoin Consultants pour le compte de GFI Informatique, révélée lors

de Big Data Paris, ce marché devrait connaître une croissance moyenne

annuelle de 9,6% jusqu’en 2019, pour représenter à cette date un marché de


Page 83 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

quelque 5 milliards d’euros. La moitié sera issue de projets Big Data en 2019,

rappelle encore l’étude, qui annonce de fait « un tassement » de l’analytique

traditionnel.

Et pour cause, entre 2015 et 2019, le marché des logiciels et services lié au

Big Data en France devrait progresser à un taux moyen de 35% par an. Le

Big Data devient le segment cœur pour le marché de la donnée ; symbole

d’une prise de conscience des entreprises, révèle clairement cette étude de

GFI.

Le Big Data s’immisce progressivement au cœur des innovations pour

s’installer soit au sein des SI, soit à la périphérie…Mais bien au cœur des

activités et des métiers. Aujourd’hui note encore l’étude, 56% des

entreprises sondées dans le cadre de cette étude (220 entreprises ont

répondu) affirment que la donnée occupe une dimension critique de leur

activité. Elles étaient 32% jusqu’alors. Elles devraient être 74% dans 2 ans.

Autre donnée clé, les deux tiers des projets de transformation numérique

sont réalisés autour de la donnée.

« Nous assistons enfin au passage du point d’inflexion tant attendu en

France », écrit d’ailleurs Alvin Ramgobeen, directeur des practices BI et Big

Data, chez GFI Informatique, citée dans l’étude. L’ère des PoC (Proof-of-

concept) semble passée; l’heure est aux projets concrets et au passage en

production, selon lui.


Page 84 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Le datalake, l'usage le plus courant en France

Si les entreprises françaises ont dépassé le stade du PoC, elles ont d’abord

opté pour la mise en place de lacs de données («Datalake»). Cela est vrai

pour 60% des entreprises répondantes. Si certes cette démarche est

facilitée avec une baisse des coûts du stockage (Hadoop fonctionne sur des

serveurs de commodité), il apparaît également que ces lacs de données

sont initiés par la DSI avec un périmètre fonctionnel le plus ouvert possible.

Comprendre sans cas d’usage spécifique de prime abord. Mais l’idée est

bien de créer une fondation technologique pour faire émerger les

applications côté métier. « Ces lacs de données sont initiés par la DSI, puis

elle attend de voir ce que cela va donner. On ne part pas sur une démarche

spécifique, mais sur une vue unifiée des données. Il s’agit là de préparer le

terrain aux métiers », explique Olivier Rafal, analyste principal chez

PAC. Les usages viennent donc des métiers par la suite.

Un point que rejoint d’ailleurs Patrick Darmon directeur Big Data de Keyrus,

présent lors de l’événement : « Le lac de données ressemble au traditionnel

entrepôt de données. Et cela évite de se poser trop de questions. Avec un

lac de données, la DSI est au rendez-vous des métiers ». Et d’ajouter : « 80%

des PoC Big Data sont faits à partir de PoC pour des usages de Data

Science, car cela a un rapport étroit avec le métier. »


Page 85 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

« Les entreprises n’ont plus besoin de PoC pour savoir que le Big Data

fonctionne, sauf dans certains projets , comme par exempe la mise en place

de clusters Hadoop dans le Cloud », ajoute Olivier Rafal « Elles ont compris

que cela fonctionne sur des cas d’usages bien identifiés. » Création de

nouveaux services, optimisation de l’activité et surtout affinage de

propositions commerciales sont ici cités comme des cas d’usage qui tirent la

croissance en France. Ils sont les plus courants.

Une industrialisation qui n’est pas systématique

Reste pourtant que tout n’est pas si rose. Si la transformation des PoC n’est

pas systématiquement au rendez-vous, un effet de levier a bien été aperçu,

nuance Patrick Darmon. « On savait que 2015 était une année de PoC. On

pensait que pendant tout 2015, on commercialiserait des PoC et des

cadrages. Cela n’a pas manqué. Il y a eu beaucoup de PoC chez des

entreprises où cela se justifiait et chez d’autres qu’on ne voit généralement

pas dans le monde du Big Data – elles ont par exemple peu de données.

Tout le monde s’est essayé au Big Data en 2015 », commente-t-il.

A cela s’est ajouté 2 réflexions complémentaires à la fin 2015, poursuit-il. Si

certaines entreprises continuent le mode PoC, il est apparu « une montée en

compétences des équipes, tant métier que DSI ». Cela apparait surtout chez


Page 86 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

les grandes entreprises, qui s’organisent pour cela. « On constate aussi qu’il

y a une porosité entre le SI et le métier qui est de plus en plus forte. Car la

technologie n’est pas encore suffisamment abordable (user-friendly) ».

Autre tendance aperçue en fin d’année dernière : l’industrialisation, même

légère. « Les entreprises ont réalisé un ou plusieurs PoC, ont obtenu ainsi un

résultat. Elles s’interrogent donc sur la façon de généraliser », constate-t-il.

Et cela peut alors passer par la mise en place d’un projet de Big Data. Mais

pas systématiquement.

Chez Keyrus par exemple, la part de revenus de Keyrus porté par le Big

Data en France est de l’ordre de 7-8%, assure Patrick Darmon. « Cela a

décollé et reste révélateur du marché : beaucoup de PoC et peu

d’industrialisation. » Si d’évolution il s’agit bien, les déploiements généralisés

se font encore un peu attendre.


Page 87 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Big Data : des technologies au service des DRH

Florence Puybareau, journaliste

Big Data et RH restent encore rarement associés. En effet, lorsque l'on

évoque l'exploitation des données massives - structurées et non

structurées-, c'est plutôt pour une finalité marketing, commerciale ou

technique.

Et pourtant, il y a de vraies opportunités pour les DRH à utiliser le Big Data.

D'abord parce qu'en interne, elles possèdent énormément de données

concernant les salariés (coordonnées, évolution de carrière, plan de

formation, compte rendu d'entretien annuel, participation à des activités

organisées par l'entreprise...). Des données encore trop souvent peu ou mal

exploitées.

A cela s'ajoutent toutes les informations qu'il est possible de récupérer à

l'extérieur sur les réseaux sociaux et autres CVthèques. Jérémy Harroch est

PDG de Quantmetry, une société qui accompagne les entreprises dans leur

stratégie Big Data. Il identifie quatre sujets qui peuvent être portés par la

DRH : « En premier lieu, le Big Data va être utilisé pour mesurer le coût du


http://www.lemagit.fr/reponse/Recrutement-et-gestion-des-competences-un-marketing-RH-revisite-par-les-nouvelles-technologies

http://www.lemagit.fr/definition/Big-Data-Gestion

http://www.quantmetry.com/

Page 88 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

turn over. Quand un collaborateur part, il faut un moment pour former son

successeur et pendant ce temps là, le business n'avance pas de la même

façon. Pour les entreprises, ces coûts cachés peuvent être énormes mais

elles ne sont pas capables de les quantifier ».

Distinguer les signaux faibles

Le deuxième élément concerne le sourcing, c'est-à- dire la capacité à

identifier les nouveaux métiers : « les DRH ne connaissent pas ces nouvelles

fonctions. Elles ont beaucoup de difficultés à faire des fiches de poste. Le

Big Data peut les accompagner dans les critères d'évaluation ».

Troisième point, peut être l'un des plus difficiles ; ce que Jérémy Harroch

appelle les critères de verbatims. « C'est la capacité à interpréter une

carrière non pas à l'issue d'un entretien annuel mais année après année sur

le long terme. En général, les verbatims sont archivés mais ne sont plus

utilisés. Or, cela peut permettre de détecter des signaux faibles, expliquer

par exemple la démotivation de certains collaborateurs ou leur envie de

changement. »

Enfin dans un grand groupe qui doit gérer une importante masse salariale

dans différents pays, le Big Data peut permettre de mieux associer des

compétences à des personnes et d'avoir une politique salariale plus

cohérente.


http://www.lemagit.fr/actualites/2240200235/RH-Comment-Google-identifie-ses-managers-les-plus-performants

http://www.lemagit.fr/actualites/2240200235/RH-Comment-Google-identifie-ses-managers-les-plus-performants

Page 89 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

D'autres experts voient dans le Big Data un moyen pour les DRH de mieux

cibler leurs recrutements et de vérifier, souvent via les réseaux sociaux, si le

candidat va être en phase avec la culture de l'entreprise.

Beaucoup d'opportunités donc s'offrent aux DRH avec le Big Data, mais

regrette Jérémy Harroch : « ce sont rarement les DRH qui portent ces

projets. Plutôt les directions marketing et les responsables des datas. Les

DRH se contentent encore trop souvent d'être les clients de ces entités ».

Article suivant


http://www.lemagit.fr/actualites/4500243980/La-RH-acteur-et-accompagnateur-de-la-transformation-numerique

Page 90 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Le Big Data apporte son lot de menaces spécifiques


C’est ce mardi 2 février que l’Agence européenne pour la sécurité des

réseaux et de l’information (Enisa) organisait avec Telefonica, à Madrid, un

atelier dédié aux défis de sécurité et de confidentialité du Big Data. Et celui-

ci apparaît comme la continuité naturelle d’un rapport général sur les

menaces affectant ces environnements, publié fin janvier.

Dans celui-ci, l’Enisa souligne en particulier que les risques accrus liés à

l’important niveau de réplication des données dans les environnements Big

Data, ainsi que « la fréquence de l’externalisation des traitements »,

potentiellement sources « de nouveaux types de brèches, de fuites et de

menaces de dégradation de données ». Et cela sans compter la création de

données additionnelles, par les liens entre les données originelles, à

l’occasion de la préparation de traitements massivement parallélisés.

Surtout, pour l’agence, les différents acteurs de la chaîne de traitement Big

Data “ « propriétaires de données, transformateurs de données, opérateurs

de traitements et fournisseurs de services de stockage » “ sont susceptibles

d’avoir des intérêts divergents, voire en conflit les uns avec les autres. Le


https://www.enisa.europa.eu/activities/Resilience-and-CIIP/workshops-1/2016/big-data-security/AgendaBigDataWorkshopv4.pdf

https://www.enisa.europa.eu/activities/risk-management/evolving-threat-environment/enisa-thematic-landscapes/bigdata-threat-landscape

Page 91 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

tout aboutissant à « un écosystème complexe où les contre-mesures de

sécurité doivent être précautionneusement planifiées et mises en place ».

Dans ce contexte, l’Enisa reconnaît les bénéfices que peuvent apporter les

pratiques de référence en matière de sécurité, mais elle encourage surtout à

appliquer « le principe de sécurité-par-défaut » consistant à intégrer les

questions de sécurité dès les premières étapes de la réflexion.

De quoi, en définitive, renvoyer à d’autres sujets technologiques encore

jeunes, comme l’usine connectée dite 4.0. Lors d’une table ronde organisé

au Forum International de la Cybersécurité, fin janvier à Lille, Eric Weber,

responsable du pôle produits de sécurité de Thales C&S, soulignait ainsi

l’importance de penser la sécurité dès la conception, pour éviter d’en faire

un facteur de coût à posteriori : « les choses déjà déployées sont très très

difficiles à sécuriser », relevait-il alors.


http://www.lemagit.fr/actualites/4500272246/Le-casse-tete-de-la-securite-de-lusine-du-futur

Page 92 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

2016 : de plus en plus de projets et des enjeux de sécurité

Les conteneurs : une clé des déploiements de Spark et Hadoop en production

Jack Vaughan, News and Site Editor

Si les projets Spark et Hadoop en place dans les entreprises ont donné

satisfaction lors de phases pilotes, ou au sein de projets de taille réduite,

leur passage en production, pour armer les analystes et autres data

scientists, reste aujourd’hui véritablement difficile. Pour nombre

d’entreprises, cela représente même un obstacle dans leur quête du Big

Data.

La complexité des processus de configuration est souvent citée comme le

premier obstacle. Il est souvent difficile et très long de re-créer un

prototype, à façon, développé par un data scientist dans son coin. Et bien

souvent, cela rime avec échec lorsqu’il est partagé auprès d’un groupe

d’utilisateurs bien plus large. Pour résoudre ce problème, certains misent sur

les microservices, les conteneurs et autres pratiques DevOps, pour

assembler leurs composants Spark et Hadoop.


http://www.lemagit.fr/definition/Data-Scientist


http://www.lemagit.fr/definition/Big-Data


http://www.lemagit.fr/conseil/Avantages-et-inconvenients-des-microservices-pour-le-developpement-dapplications

http://www.lemagit.fr/conseil/Avantages-et-inconvenients-des-microservices-pour-le-developpement-dapplications

Page 93 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

« Nos équipes de data scientists et nos métiers ne veulent pas attendre des

jours voire des semaines, le temps que nous configurions un nouveau cluster

Spark ou un environnement Big Data avec tous les outils, les bonnes

versions et les bonnes configurations et bien sûr, les bonnes données »,

affirme Ramesh Thyagarajan, directeur de The Advisory BOard Company,

une société américaine de conseil, spécialisée dans l’analytique pour le

secteur de la Santé.

Ce spécialiste considère les conteneurs Docker comme un levier pour une

plus grande agilité des data scientists et des utilisateurs métier.

Pour ses déploiements dans le style DevOps, Advisory Board s’appuie sur la

plateforme EPIC de BlueData Software pour exécuter Spark SQL et Spark,

ainsi qu’Apache Zeppelin (une interface Web pour analyser des données

depuis Spark). « Pour nous, tout est question d’agilité et d’accélération de

l’innovation », explique-t-il, soulignant l’architecture en conteneurs de la

plateforme de BlueData Software.

Cette plateforme permet la mise en place de clusters Spark à la demande,

manipulables par les data scientists et les analystes, masquant ainsi la

complexité des configurations induites par de tels déploiements.

Son équipe a d’ailleurs développé son propre framework pour porter les

données vers HDFS. Résultat, les clusters Spark s’appuie sur une seule


http://www.lemagit.fr/conseil/Une-bonne-strategie-analytique-peut-tres-bien-se-passer-de-Data-Scientist

http://www.lemagit.fr/definition/Conteneurs

http://www.lemagit.fr/conseil/Bien-demarrer-avec-DevOps

https://zeppelin.apache.org/

http://www.lemagit.fr/definition/Hadoop-Distributed-File-System-HDFS

Page 94 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

source de données. Une telle centralisation est importante. « C’est la seule

façon de supporter plus de 400 utilisateurs et leurs clusters. »

Conteneurs et Big Data : un mariage qui n’est pas consommé

L’usage de conteneurs dans les environnements Big Data est encore rare.

Les clusters Spark ont principalement été déployés sur des clusters bare-

metal, soutient Tom Phelan, co-fondateur et architecte en chef à BlueData,

et un vétéran de l’industrie de la virtualisation. Cela rime avec des

configurations ardues et des implémentations statiques difficiles à modifier,

a-t-il précisé dans une présentation lors du Spark Summit East 2017.

Selon lui, l’implémentation de conteneurs peut certes être effectuée par du

scripting manuel, mais cela devient plus difficile dans les environnements Big

Data qui cumulent les composants. Aujourd’hui, poursuit-il, Spark ne

correspond souvent qu’à une partie de workloads complexes et orchestrées

qui ne peuvent pas être adaptées facilement aux conteneurs. « Vous devez

vous frayer un chemin dans une jungle de gestionnaire de conteneurs », a-t-

il expliqué aux participants de la conférence, ajoutant que c’est justement un

des problèmes auxquels BlueData tente d’apporter une réponse.


http://www.lemagit.fr/conseil/Spark-et-Hadoop-compagnons-ou-concurrents

http://www.lemagit.fr/conseil/Spark-et-Hadoop-compagnons-ou-concurrents

Page 95 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Une réponse au dimensionnement

Selon Tom Phelan, les dernières mises à jour de la plateforme BlueData

ciblent justement les besoins des data scientists qui utilisent Spark, comme

ceux cités plus haut par Advisory Board. Dans sa dernière version, la

plateforme supporte les outils Spark, comme Jupyterhub, RStudio Server et

Zeppelin, en tant qu’images Docker pré- configurées. L’objectif est

d’apporter plus d’agilité, et de DevOps aux data scientists.

Ces méthodes liées aux conteneurs et aux microservices sont en fait un

moyen pour automatiser un peu plus d’aspects du déploiement

d’applications. Elles représentent d’ailleurs souvent une réponse au

dimensionnement et à l’élasticité des applications. Cela permet aux

administrateurs de provisionner et de dé-provisionner des ressources au

rythme des workloads.

Les conteneurs sont de plus en plus courants dans le Cloud Computing ainsi

que dans les implémentations on- premise. Une tendance que Spark et

Hadoop pourraient suivre, si leur usage est voué à grandir dans les

entreprises.


http://www.lemagit.fr/conseil/Comment-obtenir-de-bons-resultats-avec-DevOps

Page 96 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Hadoop en self-service : la prochaine étape du Big Data

Jack Vaughan, News and Site Editor

Si la sphère des technologies Hadoop s’est quelque peu transformée,

étendant le framework distribué vers de nouveaux usages, son utilisation

reste toutefois plombée par la nécessité de disposer de compétences très

spécialisée.

Mais, cela pourrait bientôt changer. Initialement cantonné à un style

particulier, centré sur MapReduce et HDFS, des formules apparaissent pour

pouvoir se passer de l’un de ces composants : Hadoop dans le Cloud est en

effet en plein essor. Et les fournisseurs de technologies tentent de se

rapprocher des data scientists vers des services Hadoop en self-service.

Pour s’attaquer à la complexité d’Hadoop, Spark est d’abord apparu sur le

marché. Ce framework a pour mission d’améliorer le modèle de traitement

des données de MapReduce et d’ajouter un niveau d’abstraction

supplémentaire pour les développeurs. Les développeurs Java doivent

encore remonter leurs manches, mais n’ont toutefois plus à s’intéresser à la

plomberie. C’est également cette même approche qui a entraîné la création


http://www.lemagit.fr/definition/Hadoop


http://www.lemagit.fr/conseil/Spark-contre-MapReduce-quelle-solution-pour-les-entreprises

http://www.lemagit.fr/conseil/Spark-contre-MapReduce-quelle-solution-pour-les-entreprises

Page 97 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

d’outils SQL pour Hadoop, pour étendre le framework à une plus large

audience.

Pourtant, il reste un problème : la mise en production d’Hadoop et Spark

nécessite toujours des super-héros aux pouvoirs étendus : l’administration

système, le développement Java ou l’ingénierie de la donnée. Et

pourquoi pas celles liées à la data science et à la statistique ?

Des super-héros de la donnée

Avec l’arrivée d’Hadoop, la fonction Data Scientist s’est envolé, mais il est

apparu que, finalement, Hadoop n’était pas la meilleure technologie pour ces

profils. Cela en a donc restreint l’adoption, car ces super-héros, issus de

l’ingénierie de la donnée ou de la data science, étaient une denrée plutôt

rare.

Leur principal problème : cet accès à l’infrastructure qui gère les traitements

de données. Il existe de nombreux problèmes de configuration que l’on doit

résoudre. Celui portant sur l’allocation des ressources en est un.

Pour cela, les fournisseurs de technologies travaillent à résoudre ce

problème. Et aujourd’hui, on peut considérer leurs actions comme une

première étape vers le self-service. C’est par exemple le cas de Databricks.

Le père de Spark a présenté en début de mois Databricks Serverless Pools



Page 98 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

(en béta) qui vise à faciliter l’accès à cette infrastructure de la donnée et à

éviter ce problème d’allocation.

Même son de cloche chez Cloudera, avec son Data Science Workbench, qui

s’appuie sur les containers pour isoler les jobs des data scientists à exposer

sur Hadoop. L’offre s’appuie sur la technologie de Sense.io que Cloudera a

racheté l’année dernière.

Une voie qu’emprunte aussi Hortonworks avec un partenariat noué avec

IBM. Si, à travers cette alliance, Big Blue préfère se ranger derrière la

distribution Hadoop d’Hortonworks “ abandonnant du coup la sienne - , le

pure-player Hadoop a aussi annoncé qu’il devenait revendeur de Data

Science Experience, une solution IBM dont la vocation est notamment de

soulager les data scientists de certaines opérations de configuration.

Datameer, Domino Data Lab, Pentaho et Platfora travaillent aussi à apporter

des fonctions en mode self-service aux data scientists.

Un Hadoop flouté

Mais cette évolution se traduit également dans le marketing qui jusqu’alors

entourait Hadoop. Aujourd’hui, les grandes conférences liées au Big Data

ont retiré Hadoop de leur nom : Strata+Hadoop World est devenue Strata


http://www.lemagit.fr/actualites/450415743/Cloudera-rapproche-son-edition-Enterprise-des-data-scientists

http://www.lemagit.fr/actualites/450420771/Hadoop-a-son-tour-IBM-se-range-derriere-Hortonworks

http://www.lemagit.fr/actualites/450420771/Hadoop-a-son-tour-IBM-se-range-derriere-Hortonworks

Page 99 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Data Conference et Hadoop Summit, DataWorks. Assurément, l’industrie

devrait inventer d’autres sobriquets dans les mois à venir.

Mais ce qui est clair est que l’objectif premier est de rendre autonome le

traitement des données pour élargir la base d’utilisateurs. En témoigne les

différentes annonces côté fournisseurs. Toutefois, il reste encore du chemin

à parcourir.

Article suivant


Page 100 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Gestion des données et IA en 2017 : retour vers le futur


En 2017, le monde de la donnée était en proie à un certain paradoxe.

Comme si finalement, considérer l’avenir impliquait de regarder

systématiquement dans son rétroviseur.

Du Big Data à l’IA

Si le vent du Big Data est certes tombé, le temps de la centralisation des

données dans un œgrand tout• (comprendre le lac de données - data lake)

semble avoir en effet fait long feu, celui de l’Intelligence artificielle s’est levé.

Un vieux concept qu’il a fallu déterrer des années 80. Mais il se retrouve

aujourd’hui porté par la volonté des éditeurs et autres fournisseurs de

technologies de le rendre désormais consommable, de lui faire une place

dans des environnements numériques toujours plus présents. Tant chez les

consommateurs grand public que les professionnels - l’heure est en effet à

la transformation digitale.


Page 101 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Pourquoi ? La réponse est venue à maintes reprises en 2017. Après avoir

entassé leurs données, sans hiérarchie, sans segmentation, il est désormais

temps de les utiliser et tenter de les intégrer plus près des processus

métiers pour les valoriser. Bref, les rendre utiles pour les modèles

opérationnels des entreprises. Avec l’IA, et ses concepts (Machine

Learning, Deep Learning, Cognitif), les entreprises y voient un moyen - parmi

d’autres - pour y parvenir. Il s’agit là de piocher dans leurs lacs et océans de

données pour donner un sens, une forme de connaissance, un insight qui

jusqu’alors n’avaient pas, ou partiellement, émergé.

Alors, évidemment, quitte à brouiller quelque peu les messages, les

spécialistes du secteur, comme Microsoft, SAP, Oracle, se sont précipités,

poussés par les Gafa - essentiellement américains - qui disposent une

longueur d’avance tant la quantité de données qu’ils hébergent et génèrent

dépasse largement celle de toute entreprise. Une approche qui d’ailleurs

soulève quelques questions en France - et plus généralement en Europe, et

fait réfléchir les instances autorisées, à l’image de France IA. Verra-t-on en

2018 émerger une filière Intelligence Artificielle dans l’Hexagone ?

En attendant, des cas d’usages ont montré le bout de leur nez. La

reconnaissance du langage, d’images ou encore le langage naturel et le

text-to-speech habitent les précieux bots. Le marketing s’en est

logiquement emparé, avec la volonté d’offrir une interaction avec le client

plus automatisée (prenons exemple sur la Société Générale), plus réactive


http://www.lemagit.fr/conseil/AI-vs-BI-comment-expliquer-et-amener-lIntelligence-Artificielle-aux-metiers

http://www.lemagit.fr/conseil/AI-vs-BI-comment-expliquer-et-amener-lIntelligence-Artificielle-aux-metiers

http://www.lemagit.fr/conseil/LIA-Washing-brouille-le-marche-de-lIntelligence-Artificielle

http://www.lemagit.fr/actualites/450427572/Microsoft-Experiences-Microsoft-place-lIA-a-tous-les-etages

http://www.lemagit.fr/actualites/450415506/France-IA-lEtat-lance-son-plan-de-bataille-pour-une-Intelligence-Artificielle-francaise

http://www.lemagit.fr/actualites/450420324/AI-Paris-des-chercheurs-des-start-ups-et-des-usages-qui-se-dessinent-un-peu

http://www.lemagit.fr/etude/La-Societe-Generale-devoile-son-plan-de-bataille-sur-la-donnee

Page 102 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

et donc plus proche du client. Les chatbots ont aussi montré le bout de leurs

algorithmes. L’IA peuple également les applications d’entreprises pour

augmenter la précieuse expérience utilisateurs et se montre sur le poste de

travail. Comme dans Gmail ou Office365 par exemple - déduire des patterns

dans Excel, inclure des infos trafic dans Outlook.

Banques, Assurances, Finance, RH, Retails, tous ont perçu dans l’IA un

moyen de mieux échanger avec les utilisateurs ou encore de mieux les servir

- la détection de fraude dans les banques par exemple.

Machine Learning, Deep Learning et Cognitif sont en 2017 devenus des

mots indispensables aux discours des fournisseurs IT, quitte alors à semer

le trouble dans la compréhension du concept par les entreprises et à flouter

les éventuels cas d’usages qui pourraient se dessiner.

Mais cela correspond à la partie de 2017 qui devrait assurément se

poursuivre (construire?) en 2018. Car en matière d’Intelligence artificielle, il

reste encore beaucoup de chemin à parcourir - le non supervisé par

exemple.

SQL à tous les étages

L’autre pan de 2017 s’apparente.... à un retour en arrière, à l’intersection des

nouvelles technologies et d’une norme née il y a plus de 30 ans : SQL. Si le


http://www.lemagit.fr/actualites/450428001/Watson-Summit-2017-Bouygues-Telecom-Allianz-et-la-Macif-entrent-dans-le-jeu-Watson

http://www.lemagit.fr/actualites/450428001/Watson-Summit-2017-Bouygues-Telecom-Allianz-et-la-Macif-entrent-dans-le-jeu-Watson

http://www.lemagit.fr/conseil/Machine-Learning-vs-Deep-Learning-un-avion-a-helices-et-un-avion-a-reaction

http://www.lemagit.fr/actualites/450413521/Du-cognitif-dans-lITSM-ServiceNow-sallie-a-IBM



Page 103 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

mouvement NoSQL (Not Only SQL, rappelons-le) avait griffé la joue du

modèle relationnel et de son approche ultra-structurée, pour mettre en

avant ses capacités tantôt de disponibilité, tantôt de performances, mais

rarement de cohérence, en 2017, le fossé s’est finalement resserré. Il est

désormais impossible de ne pas présenter une solution de gestion de

données sur le marché sans y intégrer un moteur SQL (ou compatible avec

le syntaxe SQL), doué de requêtes interactives. Du SQL dans le NoSQL, sur

Hadoop (comme Impala), sur Spark et plus récemment sur Kafka, le

framework qui tend à devenir synonyme de gestion des messages et flux de

données en temps réel - après Spark.

Il existe plusieurs explications à cela. Primo, en supportant SQL, on supporte

l’écosystème de SQL, c’est-à-dire les solutions de BI et de visualisation de

données qui peuplent en général les entreprises. Si les technologies des

données en volume et/ou non structurées doivent y trouver leur place, il est

nécessaire qu’elles puissent se greffer aux briques d’un SI en place afin d’y

inclure aussi les bonnes données - les données opérationnelles par exemple.

Secundo, et c’est souvent l’argument avancé, le support d’un langage

proche de SQL a le mérite d’attirer la grande communauté des connaisseurs

de SQL. Ils maîtrisent historiquement les bases de données et gèrent donc

celles en place dans les entreprises. Inutile d’avoir à mettre en place de

longs plans de montées en compétences ou encore à rechercher des profils

rares - les data scientists par exemple - et donc très coûteux..


http://www.lemagit.fr/actualites/450431697/SQL-sur-Hadoop-Impala-a-gagne-sa-communaute

http://www.lemagit.fr/actualites/450425834/Kafka-a-desormais-son-moteur-SQL

Page 104 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Tertio, les bases dites NoSQL ont toutes pris un virage dans leur

positionnement. D’une base centrée sur une typologie d’usage, le NoSQL

s’est tourné vers le multi-modèle, capable d’absorber et de traiter différents

types de données pour répondre à différents cas d’usage. Prenons exemple

sur DataStax. Cet éditeur a équipé son socle Cassandra de plusieurs autres

modèles au sein de DSE (DataStax Enterprise), dont une prise en compte

des graphes, ou encore un système de fichiers compatibles HDFS. De son

côté, MongoDB, outre les graphes, s’est aussi orienté vers les couches

supérieures en proposant des applications de visualisations de données.

Citons également la volonté de MarkLogic de se positionner comme un hub

de données opérationnel, pour reprendre son expression.

Un changement de positionnement qui a aussi contribué à redessiner le

marché. Et ce ne serait qu’un début. Si l’entrée en bourse de MongoDB peut

être un exemple, le sauvetage de Riak (autre base NoSQL) par Bet365, l’un

de ses principaux contributeurs, en est un autre.

Enfin porter SQL sur des terres peu explorées s’est aussi concrétisé en

2017. Microsoft et Google ont présenté leur concept de bases de données

dans le Cloud, massivement géo-distribuées, supportant SQL et apportant

des niveaux de cohérence des données adaptés. Spanner chez Google;

CosmoDB chez Microsoft. En France, un projet de recherche, AntidotDB, a

lui-aussi sa formule magique pour porter SQL à très grande échelle.


http://www.lemagit.fr/actualites/450288662/Datastax-accelere-sa-base-transactionnelle-avec-la-theorie-des-graphes

http://www.lemagit.fr/actualites/450288662/Datastax-accelere-sa-base-transactionnelle-avec-la-theorie-des-graphes

http://www.lemagit.fr/actualites/450417376/DataStax-se-dote-officiellement-dun-systeme-de-fichiers-compatible-HDFS

http://www.lemagit.fr/actualites/450402397/MongoDB-se-met-aux-graphes

http://www.lemagit.fr/actualites/450422776/MongoDB-accompagne-sa-base-NoSQL-dun-outil-de-dataviz

http://www.lemagit.fr/actualites/450419095/NoSQL-MarkLogic-evolue-naturellement-vers-le-hub-de-donnees-operationnel

http://www.lemagit.fr/actualites/450419095/NoSQL-MarkLogic-evolue-naturellement-vers-le-hub-de-donnees-operationnel

http://www.lemagit.fr/actualites/450431909/Premiers-resultats-officiels-de-MongoDB-Atlas-superstar

http://www.lemagit.fr/actualites/450419015/Cloud-Spanner-a-son-tour-Google-fait-changer-SQL-de-dimension

http://www.lemagit.fr/actualites/450419015/Cloud-Spanner-a-son-tour-Google-fait-changer-SQL-de-dimension

http://www.lemagit.fr/actualites/450418793/Cosmo-DB-Microsoft-dope-DocumentDB-aux-modeles-graphes-et-cle-valeur

http://www.lemagit.fr/actualites/450420395/AntidoteDB-milite-pour-la-juste-coherence-des-donnees-en-environnement-geo-distribue

http://www.lemagit.fr/actualites/450420395/AntidoteDB-milite-pour-la-juste-coherence-des-donnees-en-environnement-geo-distribue

Page 105 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Ce sera à coup sûr un angle à considérer pour 2018 : la cohérence des

données à grande échelle. Car finalement ce que veulent les entreprises :

rapprocher leurs systèmes transactionnels et analytiques dans un système

unique. Une consolidation des systèmes de données est donc en cours.

Réponse en 2018.

Article suivant


Page 106 of 131

Dans ce guide


déjà Hadoop




grand










E-guide


Devenir une Smart City passe par les données

Sophy Caulier, Journaliste

Quel rôle vont jouer les données et les technologies dans la réussite des

projets de smart cities en Europe ?

Seagate a récemment rassemblé quelques experts pour débattre de ce

sujet. Et la réponse fut unanime : quelle que soit la taille de la ville, c'est sur

les données et leur intégration que repose le succès du projet, qui doit

forcément être global.

Les villes qui se sont déjà lancées, et celles qui démarrent, poursuivent plus

ou moins les mêmes objectifs. Elles attendent de la collecte des données et

de leur traitement par différents logiciels analytiques et outils d'Intelligence

Artificielle (réseaux neuronaux, algorithmes d'apprentissage) qu'ils

contribuent à :

fluidifier le trafic et donc à diminuer le niveau de pollution réduire la consommation d'énergie faciliter l'accès aux services proposés par la municipalité


Page 107 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

mieux entretenir les équipements municipaux et améliorer la sécurité des citoyens

A terme, les solutions intègreront les véhicules autonomes, la circulation des

drones, la surveillance des événements ou l'accès aux soins.

Le tri des données, une étape nécessaire

Les prévisions d'augmentation des volumes de données générées et

stockées obligent toutefois à adopter une stratégie claire de choix et de tri

des données. Dans l'étude Data Age 2025, réalisée par IDC, Seagate estime

le volume global de la « datasphere » en 2025 à 163 Zo (zettaoctets) soit 10

fois plus qu'en 2016 (16,1 Zo).

Pour les villes, il va de soi qu'il faut choisir quelles données recueillir et

combien de temps les conserver.

Les données émises par les feux de signalisation, par exemple, n'ont

d'intérêt que sur une courte période. Il s'agit surtout de s'assurer de leur bon

fonctionnement. En revanche, les images des caméras de surveillance d'un

établissement public ou du lieu d'un accident pourront servir dans le futur à

identifier une personne ou à décider de la modification d'un site si trop

d'accidents s'y produisent.


Page 108 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Le principal facteur de succès d'un projet de Smart City est aussi

l'intégration des sources de données. Non seulement celles-ci sont de

formats très différents, mais elles proviennent d'acteurs publics et privés qui

exploitent des systèmes totalement hétérogènes.

Il faut, par exemple, pouvoir combiner les signaux émis par un réseau de

capteurs avec des données textuelles contenues dans un email et des

images de vidéosurveillance pour anticiper un incident ou détecter et

localiser une panne.

De nombreux aspects encore peu abordés

Cette nécessaire intégration pose deux problèmes qui ne sont pas encore

totalement réglés.

Le premier est que de telles solutions technologiques ont un coût, loin d'être

négligeable. Les collectivités peinent souvent à les financer. Les projets de

Smart City se font donc souvent dans le cadre de partenariats public “ privé

(PPP). Certains imaginent qu'à l'avenir, des données pourraient être

revendues à des fins commerciales et contribuer ainsi au financement de la

solution. Mais ce n'est là qu'une hypothèse pour l'instant.

Ce qui conduit au deuxième problème : comment exploiter des données tout

en respectant la vie privée des citoyens ?


Page 109 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Ceux-ci sont pour l'instant plutôt réticents à partager leurs données, même

dans le cadre d'un projet de Smart City qui faciliterait leur quotidien. Le

recours à l’open data ne résout qu'une partie de la question, car toutes les

données ne sont pas en accès ouvert.

L'intégration des sources amène à combiner des données ouvertes publique

avec des données en provenance de partenaires.

La prochaine mise en application du RGPD (Règlement européen sur la

protection des données) complique encore la chose. Par exemple, une

application qui signale la disponibilité d'une place de parking à un

automobiliste ne nécessite pas son accord sur l'accès aux données. En

revanche, si le parking est payant, alors l'utilisateur doit être informé des

conditions de l'application et les accepter. Et c'est là un des cas de figure les

plus simples.

Principale application, la sécurité

Le sujet des données dans la Smart City est résolument d'actualité. Lors de

sa récente journée consacrée à l'analytique, Oracle a accueilli Caroline

Pozmentier, adjointe au maire de Marseille et déléguée à la sécurité

publique, et Fabienne Marty, chargée de mission auprès de la DSI de la ville.


Page 110 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Elles ont présenté le projet de « Big data de la tranquillité publique », qui vise

à « collecter et croiser des informations susceptibles d'aider les forces de

police municipale à assurer la tranquillité publique » des Marseillais, dixit le

site de la ville.

« Nous voulons faire de Marseille un laboratoire, faire travailler tous les

services ensemble, la police, les pompiers, les espaces verts », explique

Caroline Pozmentier.

Fabienne Marty détaille le projet : « Nous avons cartographié les données

récupérables et les avons corrélées. Puis nous avons fait un PoC (Proof of

concept, ndlr) sur l'accidentologie avec Engie Ineo ». Ce dernier s'est

associé à Oracle pour répondre “ et remporter “ l'appel d'offres qui a fait

suite au PoC.

La Ville développe maintenant plusieurs cas d'usage - notamment sur la

gestion des événements sur les territoires urbains comme les chantiers, par

exemple, la circulation ou l'accidentologie et les trajets à risques.

Marseille n'est pas la seule à privilégier l'aspect sécurité dans son utilisation

des données. Plusieurs villes dans le monde ont commencé leur projet

Smart City par la sécurité. La surveillance des événements sportifs ou

culturels, la prédiction des incidents et la lutte contre le crime tirent

pleinement parti des possibilités d'analyse de données offertes par le Big

Data et de l'utilisation d'algorithmes intelligents.


Page 111 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Le Big Data et la Data Science au service de la sécurité routière en France

Alain Clapaud, Journaliste

Le 9 janvier dernier, suite au conseil interministériel de la sécurité routière,

Edouard Philippe, le Premier ministre, annonçait une nouvelle stratégie afin

d'améliorer la sécurité sur les routes. Si l'abaissement de la vitesse limite à

80 km/h a suscité beaucoup de réactions, un chapitre de ce plan d'action

porte sur l'usage des nouvelles technologies afin d'anticiper les accidents.

C'est tout l'objet de ce nouvel observatoire des risques routiers et de la

mobilité. Ce projet est mené par l'association Prévention Routière, Attitude

Prévention, qui réunit les assureurs français, l'institut des actuaires,

OpinionWay et Gfi Informatique. Leur objectif est d'aller au-delà des

données statistiques de l'ONISR (Observatoire National Interministériel de la

Sécurité Routière). Anne Lavaud, déléguée générale de l'association

Prévention Routière explique cette initiative : « Malgré leur grande qualité et

l'indéniable valeur des séries longues sans rupture statistique, les causes et

les facteurs d'accidents apparaissent parfois en décalage avec la réalité des

comportements des automobilistes, cyclistes, motards ou piétons [...] Le

développement des nouvelles technologies et des techniques du Big Data

nous sont apparus comme des opportunités à saisir pour trouver des

réponses à nos interrogations. »



Page 112 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Quand les enquêtes d'opinions sont confrontées au Big Data

De fait, l'Observatoire des risques routiers et de la mobilité se distingue des

(très) nombreux observatoires qui publient des indicateurs dans à peu près

tous les domaines imaginables. Créé avec OpinionWay, celui-ci va, très

classiquement, être bâti sur des enquêtes régulières réalisées auprès d'un

panel de 1000 français. Mais ce qui est beaucoup plus innovant : ces

personnes vont disposer d'une application mobile qui va générer des

données relatives à leur comportement de conduite. « Notre vision, c'est de

continuer à faire notre métier traditionnel qui est d'interroger des

échantillons de personnes, mais nous nous intéressons aussi au Big Data

avec les données de nos clients ainsi que les données Open Data », a

expliqué Hugues Cazenave, président d'OpinionWay.

« Croiser et hybrider les données permet de générer de la valeur », a conclu

le fondateur de l'institut de sondage. Cette hybridation va surtout permettre

de confronter les réponses des conducteurs au questionnaire qui leur sera

soumis tous les 4 mois à leur véritable comportement sur la route. Car si

tout le monde déclare respecter à la lettre le code de la route, la réalité est

souvent toute autre.


http://www.lemagit.fr/etude/Le-Big-Data-dans-un-grand-groupe-des-chantiers-gigantesques-et-interminables

http://www.lemagit.fr/etude/Le-Big-Data-dans-un-grand-groupe-des-chantiers-gigantesques-et-interminables

Page 113 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

L'application mobile dont seront dotés les panelistes assurera la remontée

des données de conduite vers les serveurs de Gfi Informatique, partenaire

technique du projet. L'ESN fournit sa plateforme Big Data gratuitement à

l'association Prévention Routière, sous la forme d'un mécénat : « Participer à

ce projet, c'est démontrer que les technologies du Big Data et d'IA peuvent

être exploitées pour le bonheur et la sécurité des citoyens », a souligné

Vincent Rouaix, PDG du groupe Gfi Informatique. « La corrélation des

données permise par l'IA va donner une connaissance de l'état de la route.

Nous travaillons sur les moyens de capter les données, soit au moyen de

l'IoT, de caméras, du son afin d'améliorer encore la performance de

captation. Nous travaillons sur les algorithmes d'intelligence artificielle afin

de trouver de nouveaux usages, de nouvelles approches pour améliorer le

quotidien de chacun. Une captation collaborative a aujourd'hui été mise en

place auprès du panel, mais demain, nous irons vers une captation

automatisée afin de sécuriser la mobilité dans notre quotidien. »

Une plateforme Big Data conçue par Gfi pour de multiples marchés

Cette plateforme est une démonstration du savoir-faire développé par Gfi

Informatique dans le domaine du Big Data. Elle est le fruit des

développements du laboratoire d'innovation parisien de l'ESN dirigé par

Jean-François Gaudy, Chief Innovation Officer. Celui-ci a livré quelques


http://www.lemagit.fr/conseil/Du-Big-Data-a-lAI-de-lautomatisation-du-traitement-des-donnees-a-lautonomie-du-code

http://www.lemagit.fr/conseil/Du-Big-Data-a-lAI-de-lautomatisation-du-traitement-des-donnees-a-lautonomie-du-code

http://www.lemagit.fr/etude/Comment-le-Big-Data-ameliore-le-modele-des-objets-connectes

http://www.lemagit.fr/etude/Comment-le-Big-Data-ameliore-le-modele-des-objets-connectes

Page 114 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

détails sur cette plateforme : "Celle-ci ne s'appuie ni sur Hadoop, ni sur les

bases NoSQL du marché. Hadoop par exemple n'était pas adapté pour une

plateforme appelée à recevoir 1 milliard de données chaque jour. Cela aurait

été à la fois très lourd et très couteux d'avoir des VM Hadoop dans le Cloud

pour traiter ces données. Pour cette plateforme représentative de l'offre

Daas (Data As a Service) de Gfi, nous avons préféré nous appuyer sur l'offre

Cloud Microsoft Azure, avec le composant Azure Event Hub qui se charge

de la collecte des données et Azure Data Lake pour le stockage. Tout ce qui

vient au-dessus de ces briques techniques de base est développé par Gfi,

avec notre propriété intellectuelle. »

Sur celle-ci, les Data Scientists de Gfi développent les algorithmes qui vont

exploiter les données de comportement glanées via les smartphones des

panélistes et les recouper avec des données tierces. « Nous corrélons nos

données avec celles des infrastructures routières, notamment la

signalisation disponible dans OpenStreetMap. Cela nous permet par

exemple de calculer le temps d'arrêt du conducteur à un panneau stop. Nos

données montrent que ce temps est souvent inférieur à l'arrêt de 2

secondes enseigné dans les auto-écoles. En déclaratif, le conducteur va

déclarer s'arrêter aux stop, les données montrent que ses arrêts sont trop

courts. »

De même, les Data Scientists peuvent déduire des données les

franchissements de vitesse, mais aussi repérer les nids-de-poule sur une


http://www.lemagit.fr/actualites/450421248/Hadoop-en-self-service-la-prochaine-etape-du-Big-Data

http://www.lemagit.fr/conseil/Quel-SGBD-NoSQL-pour-vos-besoins-IT-Criteres-de-choix



Page 115 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

route lorsque des accélérations verticales sont repérées systématiquement

au même endroit sur plusieurs véhicules. Autre donnée intéressante à

analyser pour la sécurité routière, la vitesse angulaire des véhicules : « Nous

sommes capables d'identifier les virages où la vitesse angulaire des

véhicules est trop importante et corréler cette information avec la vitesse

maximale dans ce virage. Si celle-ci est de 90 km/h par exemple, c'est un

point dangereux et il faut sans doute limiter la vitesse à 70 km/h dans ce

virage ».

Une plateforme qui se veut ouverte

Cette plateforme est accessible aux Data Scientists de Gfi, mais aussi à

ceux d'OpinionWay afin de travailler sur les données en fonction de chaque

étude. Néanmoins, le chef de l'innovation de Gfi évoque ouvrir ces données à

des tiers : « Notre plateforme permet aux Data Scientists d'interroger nos

données via Azure Analytics mais nous pensons qu'à l'avenir, des

entrepreneurs pourront créer leur startup et valoriser les algorithmes qu'ils

auront créés pour exploiter les données. Un Data Scientist pourra disposer

de datasets anonymisés et représentatifs des données présentes dans nos

Data Lake. Il pourra travailler sur ces modèles avec les outils de son choix,

puis ceux-ci seront intégrés à notre plateforme pour être exécutés sur

l'ensemble des données. »


Page 116 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

L'équipe de Jean-François Gaudy travaille notamment sur les outils de

monétisation de tels algorithmes. Cela permettrait de créer des

écosystèmes autour des données stockées par les clients de l'offre Daas de

Gfi Informatique. Municipalités, assureurs figurent parmi les premières cibles

potentielles de cette offre Big Data qui vient se placer en concurrence avec

les grandes plateformes IoT du marché.

Article suivant


Page 117 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

La qualité des données progresse au rythme des systèmes Big Data en production


Alors que les lacs de données s’installent dans les environnements en

production, l’intérêt pour la qualité des données grandit dans les entreprises.

Comme une lapalissade, c’est une des conclusions que l’on aurait pu retenir

de la dernière étude annuelle de Syncsort pointant les grandes tendances

de 2018 en matière de Big Data. Une conclusion finalement logique mais

riche d’enseignements : il apparait s que parmi les principaux secteurs

d’activités listés, les secteurs des services financiers et de la santé

apparaissent comme ceux ayant déjà déployé des lacs de données en

production - des secteurs hautement régulés dans le monde entier. La

population répondant à cette étude est également composée d’entreprises

du secteur public et du secteur de l’information “ ce dernier étant très

concerné par la mise en place de la loi européenne RGPD.

Ainsi sur les 200 répondants, 40% affirment avoir déjà déployé des lacs de

données bâtis sur Hadoop ou Spark. 30% évoquent des pilotes en cours.

Syncsort note que ces socles inhérents au Big Data s’inscrivent désormais

comme des composants clé des SI des entreprises. A 70,8%, les opérations


http://www.lemagit.fr/definition/Datalake-lac-de-donnees

http://www.lemagit.fr/etude/Big-Data-Pourquoi-LeBonCoin-a-prefere-Spark-a-Hadoop

http://www.lemagit.fr/etude/Big-Data-Pourquoi-LeBonCoin-a-prefere-Spark-a-Hadoop

Page 118 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

de transformation des données (ETL “ Extract, Transfert and Load) sont les

premiers cas d’usage de ces data lakes. Suivent les opérations d’analytiques

avancées et l’analyse prédictive (63,5%) et l’analyse temps réel (60,4%).

Avec des environnements d’entreprise toujours plus ramifiés et distribués,

les entreprises sont amenées à exploiter les données issues de différentes

sources et à les transférer dans le data lake pour y effectuer les précieuses

analyses. Parmi ces sources, la base de données relationnelle reste le

principal contributeur à l’enrichissement de ces plateformes (69,3%) devant

l’entrepôt de données (62,5%), cité comme première source dans l’édition

précédente de cette étude. Les bases de données NoSQL (46,4%) suivent

aux côtés des fournisseurs de données tiers (45,3%). Le Cloud “ une source

qui ne cesse de grandir “ est une source pour 40,6% des répondants et le

mainframe (31,8%). Rappelons que la migration d’applications et de code

mainframe vers des socles modernes et standards est une spécialité de

Syncsort.

L’on comprendra ainsi l’intérêt grandissant des entreprises pour la qualité

des données de ces lacs de données et pour leur gouvernance. Ce sont là

les deux principales difficultés rencontrées par les entreprises répondantes.

Elles détrônent d’ailleurs l’argument de la pénurie de compétences,

préoccupation n°1 des entreprises lors des 3 précédentes études.

Plus la diversité des données est importante, plus les entreprises ressentent

la nécessité de travailler sur la qualité des données, résume ainsi Syncsort.


http://www.lemagit.fr/actualites/450421248/Hadoop-en-self-service-la-prochaine-etape-du-Big-Data

http://www.lemagit.fr/conseil/Gouvernance-des-donnees-comment-bien-identifier-les-besoins

Page 119 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Pour 60% des répondants, la moyenne des sources de données est de 4,

mais pour celles qui en intègrent plus de 5, cet intérêt pour la qualité des

données est 4 fois plus important.

Pourtant, il existe bien un paradoxe : la qualité des données n’est encore pas

une priorité pour toutes les entreprises, y compris celles qui ont placé parmi

les premiers cas d’usage de leurs lacs de données des opérations

d’analyses prédictives par exemple. Un vrai « souci », souligne Syncsort qui

rappelle que la qualité des analyses fournies sera directement liée à la

qualité des données analysées¦

Article suivant


Page 120 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Big Data : les dessous du projet d'Etam

Philippe Ducellier, Journaliste

Etam est un groupe français centenaire, spécialiste de la mode, de la lingerie

et des sous-vêtements féminins. La société possède quatre marques : Etam,

1,2,3, Undiz, et la toute nouvelle Livy (déclinaison plus haut de gamme

d'Etam, vendue par exemple au Bon Marché).

En tout, le groupe gère 4 000 points de vente, dans 52 pays et emploie 15

000 personnes dans le monde. Son chiffre d'affaires est d'environ 1,3

milliard d'euros pour un résultat opérationnel de 50 millions.

Contexte

Dans un contexte où le e-commerce est devenu un mode d'achat privilégié,

et où internet est un canal marketing à part entière, Etam a lancé un projet

de transformation numérique pour ne pas louper ce virage digital. Son but :

mieux anticiper les ventes (pour améliorer la chaîne d'approvisionnement et

les marges), être capable de mesurer les performances de son activité, et

surtout personnaliser au mieux l'expérience cliente.


https://www.etam.com/accueil

https://www.li-vy.com/fr/accueil

http://www.etamdeveloppement.com/wp-content/uploads/2017/05/ETAM-rapportAnnuel_VA_DOUBLE-PAGE.pdf

Page 121 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

« L'expérience, en ligne et hors ligne, est primordiale. C'est elle qui permet

de fidéliser », tranche Jonathan Attali, directeur Ecommerce & Innovations

chez Etam. « Ce n'est pas le programme fidélité en lui-même, c'est vraiment

ce que la cliente va vivre chez Etam qui fait qu'elle va revenir ».

Or l'expérience de l'utilisatrice passe par une meilleure connaissance, « et la

connaissance passe par la data ».

Données en silos

Oui, mais chez Etam - comme dans beaucoup de groupes - « nous avions

énormément de données en silos », diagnostique Grégoire Sanquer, DSI de

l'entreprise.

« On avait des données depuis le début des années 90 avec le programme

de fidélité. Elles étaient bien stockées, mais bien silotées aussi », confirme

Jonathan Attali. Bref, les données étaient quasiment inexploitables.

Au sein d'Etam, une idée s'impose alors rapidement : pour avancer, il faut

que la "data" ne soit ni la propriété de l'IT, ni celle des métiers. « L'essentiel

c'est de s'aligner les uns avec les autres pour sortir des cas d'utilisations

centrés sur la cliente ».

Pas question, en revanche, de faire des démonstrateurs purement

techniques. « On a toujours eu en ligne de mire l'expérience utilisatrice. On


https://fr.linkedin.com/in/jonathanattali

https://fr.linkedin.com/in/gr%C3%A9goire-sanquer-43311b55

Page 122 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

ne voulait pas se dire "on a fait un truc super"... mais que la cliente s'en fiche

», insiste Jonathan Attali.

Logiques "Plug & Play" et "Test & Fail"

Etam se met alors dans une logique "start-up" et "Plug & Play" (sic).

« Nous ne voulions pas lancer des projets qui mettraient deux ans à sortir.

On veut qu'ils soient "live" en un mois ou deux », indique Jonathan Attali.

« On a aussi adopté une logique "test & learn", c'est-à-dire que l'on accepte

de se tromper - une fois, deux fois, trois fois s'il le faut - pour trouver

quelque chose qui fonctionne. Et ensuite, le décliner très rapidement ».

Pour parvenir à ce résultat, l'IT devait évidemment être agile. Logiquement, il

n'était pas possible d'attendre plusieurs mois une DMP (Data Management

Platform) si le cas d'usage devait, lui, sortir en quelques semaines, voire en

quelques jours.

Idem pour l'infrastructure qui devait suivre et ne pas mettre plusieurs jours à

être provisionnée.

Un monde idéal ? « C'est ce que l'on fait chez Etam », se réjouit Jonathan

Attali qui souligne - en plaisantant - qu'il n'est pas si commun d'avoir, en


Page 123 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

bonne entente, un témoignage commun d'un représentant métier et de la

DSI.

Un "Data Hub" dans le Cloud

« La réponse de l'IT a été des process agiles, mais pas au sens

méthodologie », enchaîne Grégoire Sanquer, « plutôt au sens où l'on change

les priorités d'une semaine sur l'autre ».

Cette flexibilité demande une excellente communication transversale. « On

n'est plus vraiment dans le "retail", on est dans le "fashion". Il faut que ça aille

vite », justifie-t-il.

Le DSI commence par poser les bases d'un "Data Hub" entre les différentes

briques logicielles utilisées par Etam. « On utilise beaucoup de start-ups

pour beaucoup de sujets différents. On a un canon à mails, un outil SAV, une

DMP. Mais il faut que l'ensemble de nos bases de données clients soient

synchrones entre les différents systèmes ».

Dans ce "Data Hub", véritable cÅ“ur du projet d'Etam, il est également

possible de déverser les données dans un Data Lake. « Le tout en temps

réel », insiste le DSI.

Pour réaliser ce "Hub" de manière "agile", Etam a choisi le Cloud (AWS). La

flexibilité du PaaS permet en effet d'aller vite.


http://www.lemagit.fr/definition/Datalake-lac-de-donnees

http://www.lemagit.fr/definition/PaaS-Plateform-as-a-Service

Page 124 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Plus vite en tout cas, pour Grégoire Sanquer, que s'il avait dû revoir le SI -

comme lui ont proposé des acteurs avec des projets « à 3500 jours hommes

» pour revoir l'existant et le CRM. « Ce n'était juste pas possible » au regard

des objectifs visés et du timing voulu - et certainement du budget.

L'ami AWS

Auparavant, Etam possédait une infrastructure 100% sur site. Mais un tel

projet n'aurait pas été possible dans ces conditions. Au contraire,

aujourd'hui, avec des solutions serverless comme Lambda, la DSI a fait le

choix de la plus grande flexibilité possible.

L'option AWS peut surprendre. Le bras IT du e-commerçant n'est pas en

odeur de sainteté auprès des distributeurs, qui voient sa maison mère

Amazon comme un concurrent.

Ce n'est pas le cas chez Etam.

« En interne, nous voyons Amazon comme un partenaire potentiel. Bien sûr,

ils vendent aussi de la lingerie. Mais si demain on veut vendre aux Etats-Unis,

on aura aussi besoin d'eux », tranche le DSI.

Quoi qu'il en soit, il ne faut pas attendre d'avoir l'infrastructure idéale pour

débuter un projet Big Data, conseillent les deux responsables d'Etam.



Page 125 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

« Faites étape par étape », en fonction des retours et des demandes

métiers. « Il faut aussi savoir prioriser », prévient le DSI. « Et nourrir la

curiosité », renchérit le directeur Ecommerce & Innovation.

Ysance et des solutions françaises

Pour accompagner le projet de Hub, Etam a fait appel à un spécialiste

français du Big Data et de l'analytique, Ysance, dans lequel la famille Mulliez

(groupe Auchan) a réalisé un investissement stratégique en 2015.

« Ysance nous a beaucoup aidés sur la première DMP, pour rapprocher les

profils des clientes online et offline », se souvient le DSI.

Depuis Ysance, en spécialiste du retail et de l'analytique marketing, a aidé

Etam sur le choix technique et sur la mise en place de la plateforme.

Résultat, une plateforme adossée au Cloud, avec une DMP estampillée

Ysance. En entrée, un outil français de service client (Easiware), un outil de

Master Data Management lui aussi - à moitié - français (Semarchy), du

Salesforce (Commerce Cloud, ex-Demandware) et un ETL (Talend). Au

milieu : des services AWS du sol au plafond (Kinesis - traitement de flux de

données en temps réel, S3, le moteur d'orchestration serverless Lambda et

les trois bases de données DynamoDB (NoSQL), RedShift (entrepôt de


http://www.lemagit.fr/actualites/4500254520/Big-Data-La-famille-Mulliez-Auchan-investit-5-millions-dans-Ysance

https://www.ysance.com/

https://www.easiware.com/

http://www.lemagit.fr/conseil/AWS-Google-Microsoft-se-reperer-dans-les-services-Big-Data

http://www.lemagit.fr/conseil/AWS-Google-Microsoft-se-reperer-dans-les-services-Big-Data

http://www.lemagit.fr/conseil/Bien-comprendre-la-facturation-dAWS-Lambda

Page 126 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

données) et Aurora (base relationnelle)). En sortie, le "canon à mails" belge

Actito, et une plateforme marketing conçue avec Ysance.

Grégoire Sanquer et Jonathan Attali sur la scène du Big Data Paris 2018

Actito, en particulier, personnalise les mails envoyés aux clientes et module

l'heure des envois en fonction des taux d'ouvertures clientes par clientes (ce

qui génère d'autres données analysables). La DMP, alimentée aussi par les

retours magasins, permet, quant à elle, de générer de segments plus

rapidement et « plus intelligemment ».

Tout n'est pas totalement achevé. Etam doit encore finaliser son

architecture temps réel avec des sprints réguliers (Easiware n'est pas

encore totalement connecté au Data Hub par exemple), mais la suite est

déjà en route.

Une connaissance des clientes aussi fine que de la dentelle

Avant ce Data Hub, pour avoir une vue complète d'une cliente (a-t-elle

ouvert le mail ?, a-t-elle acheté en magasin ?, utilise-t-elle les promotions?,

etc.), il fallait consulter 17 systèmes.


https://www.actito.com/fr/

Page 127 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

« Aujourd'hui, grâce à la DMP et à l'infrastructure mise en place, on remonte

les tickets de caisse des 450 magasins en France en moins de 10 minutes.

Ce qui fait qu'on arrive à mesurer les performances d'une opération en

moins de 10 minutes également », se réjouit le directeur Ecommerce &

Innovation.

Autre bénéfice, les taux d'ouverture des e-mails auprès de certaines

audiences - mieux ciblées - atteignent des sommets, à plus de 55 %.

Les données du programme fidélité - enfin exploitées - couplées à toutes

celles de la DMP ont par ailleurs permis d'établir qu'en moyenne « une

cliente fait entre quatre et cinq visites sur le site Internet dans les deux

semaines qui précèdent un achat en magasin ».

Autre enseignement, une cliente qui achète en magasin et en ligne achète

trois fois plus qu'une cliente qui n'achète que sur un des deux canaux. Et ces

dépenses sont uniformément réparties entre les deux types de boutiques.

2 milliards de données de points de contact

Ces deux informations montrent que le digital n'est pas un concurrent du

magasin physique, mais un accélérateur de revenus pour tous les canaux.

Ceci étant, pour arriver à cette connaissance, il a fallu mettre en place des

"points de contacts" (quand une cliente passe-t-elle en magasin ? a-t-elle vu


Page 128 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

une publicité ?, a-t-elle ouvert un mail ?, a-t-elle a surfé sur le site ?, etc.).

Etam dispose aujourd'hui d'un historique d'environ 2 milliards de ces

"touchpoints" dans son Data Lake - à la disposition de l'analytique, des

métiers et des Data Scientists.

« Aujourd'hui la donnée est utilisée par tous les départements d'Etam », se

félicite Jonathan Attali : achats (pour comprendre ce qui a fonctionné et qui

a acheté quoi), CRM pour affiner les campagnes, etc.

AI et Big Data...

La prochaine grande étape pour Etam sera de faire le grand plongeon dans

l'Intelligence Artificielle (IA).

Le groupe a déjà déployé des algorithmes de Machine Learning pour

détecter des tendances d'achats à la hausse en magasin, qui peuvent

différer des tendances sur le web. Ce qui n'est pas sans conséquence sur

les stocks et sur les initiatives différenciées à mener pour augmenter le CA.

Dans ce domaine également, Ysance a collaboré avec Etam pour

développer des outils prédictifs sur les achats et les actions à mener - ou à

ne pas mener. « Une cliente qui a déjà envie d'acheter ne va pas acheter

plus si elle reçoit un email », prévient Laurent Letourmy, président d'Ysance.

« Parfois, il faut savoir ne pas envoyer d'email ».


http://www.lemagit.fr/definition/AI-intelligence-artificielle

http://www.lemagit.fr/essentialguide/Comprendre-le-Machine-Learning

http://www.lemagit.fr/definition/Analytique-predictif

https://fr.linkedin.com/in/letourmy/fr

https://www.ysance.com/

Page 129 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Laurent Letourmy insiste sur le fait que les données et l'IA appartiennent à

son client. Un point important pour le distributeur. « On a recruté un

développeur en Python. On veut ré-internaliser ce savoir-faire », confirme le

DSI d'Etam. « C'est notre démarche habituelle. On fait cela également avec

notre site e-Commerce, Demandware nous a aidé à démarrer, mais

aujourd'hui on internalise les savoir-faire ».

... pour écouler les gros bonnets (et les petits)

L'IA et le Big Data permettent d'ores et déjà à Etam d'approfondir ses

segmentations et de déterminer s'il faut faire des campagnes

personnalisées ou non.

« Nous étions en fin de solde, il nous restait beaucoup de tailles extrêmes,

des bonnets A, E et F », illustre Jonathan Attali. « Nous avons pu sortir en 5

minutes un segment des acheteuses potentielles en nous appuyant sur les

données des 25 derniers mois ».

La promotion a été communiquée sur Facebook en 30 minutes pour la

tester. Le mail a été poussé le soir même.


Page 130 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Résultat, la majorité des pièces a été écoulée en 48 heures. Et

majoritairement en magasin. Comme quoi, le Big Data ne concerne pas que

le monde numérique. Et pas que les gros bonnets de la Data Science.


Page 131 of 131

Dans ce guide


déjà Hadoop




grand










E-guide

Accéder à plus de contenu exclusif PRO+

Vous avez accès à cet e-guide en tant que membre via notre offre PRO+ : une

collection de publications gratuites et offres spéciales rassemblées pour vous

par nos partenaires et sur tout notre réseau de sites internet.

L’offre PRO+ est gratuite et réservée aux membres du réseau de sites internet

TechTarget.

Profitez de tous les avantages liés à votre abonnement sur: http://www.lemagit.fr/eproducts

Images; stock.adobe.com

©2018 TechTarget. Tout ou partie de cette publication ne peut être transmise ou reproduite dans quelque forme ou de

quelque manière que ce soit sans autorisation écrite de la part de l’éditeur.


http://www.lemagit.fr/eproducts

Documents

10 ans de Big Data - armoris.bzh · Citons enfin Pentaho qui, en mai 2010, a décidé d'adapter ses technologies pour recevoir le framework. A l'époque, l'idée était de fournir