20
LIVRE BLANC Analytique « Big Data » : Architectures futures, compétences et feuilles de route du DSI SEPTEMBRE 2011 PAR PHILIP CARTER Parrainé par SAS

Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

Embed Size (px)

Citation preview

Page 1: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

LIVRE BLANC

Analytique « Big Data » :Architectures futures, compétences et feuilles de route du DSI

SEPTEMBRE 2011 PAR PHILIP CARTER

Parrainé par SAS

Page 2: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI
Page 3: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

iii

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Sommaire

Les promesses du « Big Data » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

PRESENTATION DE LA SITUATION . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

L’essor de la business analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

PRÉCISION TERMINOLOGIQUE : Business intelligence ou analytics ? 4

DÉFINITION DU « BIG DATA » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

AUTRES DÉFINITIONS : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Hadoop, MapReduce, KVS (Key Value Store) . . . . . . . . . . . . . . . . . . . . . . . . . . 6

ANALYTIQUE « BIG DATA » : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

La confrontation de deux ères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

LE FACTEUR COMPÉTENCES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

Checklist du DSI dans la perspective de l’analytique « Big Data » . . . 13

CONCLUSION . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Page 4: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

iv

SAS White Paper

Livre blanc

Page 5: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

1

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Les promesses du « Big Data »L’ère du « Big Data » est une réalité — entrepôts de plusieurs péta-octets de données, interactions sur les réseaux sociaux, flux de données sensorielles en temps réel, informations géospatiales et autres sources de données nouvelles créent de multiples enjeux, tout en offrant de grandes opportunités aux entreprises. Au moment où les DSI commencent à adopter la nouvelle catégorie de technologies indispensables au traitement, à l’exploration et à l’analyse de ces gigantesques tables inexploitables par des bases de données et architectures classiques, il semble clair pour IDC que la véritable valeur ajoutée résidera dans l’analyse poussée - l’analytique « Big Data » - des données de plus en plus volumineuses, diverses et rapides qui sont générées par les entreprises.

L’une des différences fondamentales entre l’analytique traditionnelle et ce à quoi nous sommes confrontés à l’ère du « Big Data » réside dans la collecte systématique de données, sans a priori sur le fait que la donnée soit utile ou non à collecter — ce qui, du point de vue analytique, revient à « considérer que l’on ne peut pas savoir a priori ce que l’on ne sait pas » . Les variables et modèles vont, par conséquent, être entièrement nouveaux, nécessitant une stratégie différente en matière d’infrastructure et, surtout, de nouvelles compétences .

Le présent livre blanc a pour objectif d’analyser l’incidence première du phénomène « Big Data » sur les entreprises, notamment sur leurs services informatiques, contraints de réévaluer leurs architectures, modèles de déploiement et feuilles de route . Il abordera également en détail les points suivants :

Définition Du « big Data » .

La notion de « Big Data » ne se définit ni par des quantités, ni par des seuils (puisque ceux-ci varient constamment et s’appliqueront différemment, en fonction de la verticalité et du segment de marché), mais plus par rapport à une nouvelle génération de technologies et d’architectures, conçues pour retirer une valeur économique de gigantesques volumes de données hétéroclites, en les capturant, en les explorant et/ou en les analysant en un temps record .

HaDoop, mapreDuce, kvs ?

Les nouvelles technologies aujourd’hui utilisées sur le marché pour gérer le phénomène « Big Data » sont très médiatisées . Nous reviendrons sur certaines d’entre elles ainsi que sur leur importance .

intérêt analytique... Du « big Data ».

La vérité, c’est qu’il devient extrêmement compliqué de traiter et d’analyser des volumétries de données de plus en plus massives qui obligent à réévaluer les stratégies de gestion de l’information dans la majorité des entreprises ayant investi dans la business analytics .

en quoi l’analytique « big Data » est-elle importante (et Différente)

La question est souvent posée : en quoi ce phénomène est-il nouveau ? Cette section mettra en avant les différences entre la business analytics classique de l’ère « pré-Big Data » et l’analytique « Big Data » de la nouvelle ère . Elle abordera également les différents scénarios d’utilisation qui devraient, selon IDC, devenir monnaie courante dans différents secteurs d’activité .

Page 6: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

2

SAS White Paper

Livre blanc

le facteur compétences – émergence De « scientifiques Des Données ».

Avec la multitude de nouvelles technologies et de structures organisationnelles requises par le phénomène « Big Data », une demande croissante de « scientifiques des données » se fera jour . Cette nouvelle génération de professionnels de l’analyse, capables d’extraire des informations de tables volumineuses pour apporter une valeur ajoutée à d’autres experts, non spécialisés dans les données, sera de surcroît parfaitement à même d’identifier les nouveaux modèles à mettre en place .

migration planifiée vers l’analytique « big Data ».

Le cheminement vers l’analyse des « Big Data » sera itératif ; il convient donc de le planifier, dans un contexte plus large . C’est là tout l’objet de cette section, qui fournit également certaines recommandations aux DSI séduits par le potentiel de l’analytique « Big Data » .

PRESENTATION DE LA SITUATION

L’essor de la business analytics

L’explosion des volumétries de données à l’échelle mondiale fait l’objet de nombreux articles . D’après l’étude Digital Universe réalisée récemment par IDC, la quantité d’informations créées et dupliquées dépassera 1,9 zetta-octets (1800 milliards de giga-octets) en 2011, en progression d’un facteur sur cinq ans .

Dynamique née en apparence de manière soudaine, le phénomène « Big Data » est pourtant loin d’être nouveau : aujourd’hui, il se démocratise et monopolise l’attention . La montée en puissance du « Big Data » est favorisée par le faible coût de stockage, la prolifération de capteurs électroniques et de technologies d’acquisition de données, la multiplication des accès à l’information via le cloud et l’infrastructure de stockage virtualisée, sans oublier des outils d’analyse et logiciels innovants . Rien d’étonnant donc à ce que les DSI et responsables de branches d’activité s’intéressent à la business analytics en tant que domaine technologique .

Pour preuve, une étude menée récemment auprès de 5 722 utilisateurs sur le marché américain révèle que la business analytics fait partie des cinq premières initiatives informatiques des entreprises . Pourtant les motivations premières de son adoption restent encore très conservatrices et défensives . Le souci de maîtriser les coûts, de fidéliser la clientèle et d’optimiser les opérations est sans doute le reflet de l’incertitude économique persistante . Toutefois, les motivations varient considérablement en fonction de la taille de l’entreprise et du secteur d’activité .

En février 2011, IDC a réalisé une enquête cette fois auprès de 693 entreprises européennes qui elles aussi, à 51%, jugent les technologies décisionnelle et analytique hautement prioritaires . Sur les marchés émergents, tels qu’en Asie/Pacifique, la priorité consiste à surfer sur la prochaine vague de croissance .

Page 7: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

3

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Plus d’un millier de DSI et responsables de branches d’activité, interrogés en février 2011 pour le baromètre des décideurs Asie-Pacifi que, citent la business analytics comme le premier domaine technologique susceptible de conférer à leurs établissements un avantage concurrentiel dans l’année .

Figure 1 - L’essor de la business analytics (Source : IDC 2011)

Multipliant les investissements informatiques pour mieux surfer sur la vague de l’hypercroissance dans les pays émergents, les entreprises en Asie recourent à des solutions analytiques pour mieux connaître leurs clients, gérer plus effi cacement les risques et les indicateurs fi nanciers et, en parallèle, se différencier véritablement de leurs concurrents .

Historiquement, les entreprises ont massivement investi dans l’applicatif afi n d’automatiser leurs processus métier et de recueillir des données visant à optimiser leur effi cacité opérationnelle . Nombre de ces projets sont toujours d’actualité, mais les dirigeants et responsables métier de ces entités prennent conscience de leur incapacité à fournir aux intervenants compétents en interne les informations pertinentes au moment opportun, pourtant indispensables aux prises de décisions stratégiques, essentiellement en raison d’une mauvaise intégration des systèmes, d’une qualité de données discutable, et d’un manque de performance et d’évolutivité .

Face à cette situation, les directions fonctionnelles ont tendance à déployer leurs propres solutions, créant une nouvelle vague d’investissements informatiques « parallèles » axés sur la business analytics ; les DSI sont ensuite contraints de réexaminer ces projets avec comme priorité d’aligner les pôles informatique et métier . À noter que ces problématiques existent indépendamment de la dynamique « Big Data », qui ne fait que les aggraver, plaçant ainsi l’analytique « Big Data » au cœur du débat .

0 5 10 15 20 25 30 35 %

Décisionnel/business analytics

Réseau

Médias sociaux/Canaux en ligne

Collaboration (vidéo, mobilité notamment)

Cloud computing/services

TOP 5

Q : Vous (directeur informatique/technique) parlez de « miser sur les TIC pour dégager un avantage concurrentiel » . . . Parmi les technologies ou solutions suivantes, lesquelles choisiriez-vous en priorité pour tirer encore mieux parti des TIC ?

Page 8: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

4

SAS White Paper

Livre blanc

PRÉCISION TERMINOLOGIQUE : Business intelligence ou analytics ?

La défi nition et l’emploi de la terminologie applicable à la business analytics sont loin d’être simples . Du fait de la maturité du marché décisionnel, nombre de termes, depuis longtemps en usage, sont devenus obsolètes ou ont été redéfi nis au fi l des ans . Le terme anglo-saxon Business Intelligence, par exemple, peut être tour à tour utilisé dans un sens restreint (désignant exclusivement des outils de requêtes, reporting et analyse) ou dans un sens large, désignant alors tout ce que recouvre la business analytics dans l’acceptation d’IDC (notamment le data warehousing et les applications analytiques en plus des outils de restitution) .

Le terme « Analytique » est une notion relativement nouvelle, à la signifi cation bien souvent obscure — fait-il référence à l’analyse avancée, qui englobe analyse prédictive, optimisation et prévisions, ou aux applications analytiques ? Pour certains sous-marchés, comme l’analytique Web, le terme « analytique » n’est rien d’autre qu’un tableau de bord superposé à certaines données .

Dans ce Livre blanc, notre interprétation de Business Intelligence sera celle d’outils QRA .

Par « analytique », nous désignerons soit une analyse avancée (data mining, statistiques, optimisation et prévisions), soit des applications analytiques (gestion de la performance fi nancière et de la stratégie, gestion de la relation client et analyse marketing, analyse de la chaîne logistique, etc .) . La Business analytics selon la taxinomie IDC 2011 comprend les deux et inclut également les technologies de data warehousing (voir Figure 2 ci-après):

Figure 2 : Taxinomie Business Analytics IDC (source : IDC)

Gestion de la performance et applications analytiques

Gestion de la performance fi nancière

et de la stratégie

Elaboration budgétaire, plani� cation,

consolidation, rentabilité, gestion de la stratégie

Applications analytiques pour

la gestion de la relation client

Ventes, service clients, centre de contacts,

marketing, analyse de site web, optimisation

tarifaire

Applications analytiques pour

la chaîne logistique

Achats, logistique, stocks, fabrication

Applications analytiques pour

les opérations de services

Services � nanciers, enseignement, administration,

santé, télécommunications, etc.

Applications analytiques pour la

planifi cation de la production

Prévision de la demande, offre et plani� cation

de la production

Applications analytiques pour les

ressources humaines

Business Intelligence

Outils de requêtes, de

reporting et d’analyse

Tableaux de bord, reporting de

production, OLAP, requêtes ad hoc

Outils d’analyse avancés

Data mining et statistiques

Outils d’analyse de contenu

Outils d’analyse des informations

spatiales (SIG)

Plate-forme de gestion des entrepôts de données

Gestion d’entrepôts de données

Génération d’entrepôts de données

Extraction de données, transformation, chargement ; qualité des données

Page 9: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

5

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

DÉFINITION DU « BIG DATA »

La notion de « Big Data » ne fait pas tant référence au contenu créé, ou même à son exploitation . Elle désigne plutôt l’analyse des données et la manière dont celle-ci doit s’effectuer . Loin d’être une réalité fi gée, il s’agit plutôt d’une dynamique/activité couvrant plusieurs disciplines informatiques . IDC défi nit le « Big Data » comme suit : « Les technologies Big Data correspondent à une nouvelle génération de technologies et d’architectures, conçues pour retirer une valeur économique de gigantesques volumes de données hétéroclites, en les capturant, en les explorant et/ou en les analysant en un temps record . »

Figure 3 : Défi nition du « Big Data » (Source : IDC 2011)

volume

L’univers des données structurées est celui dans lequel nous baignons . Il est celui des magasins de données transactionnelles et de l’omniprésente traçabilité électronique créée par les particuliers et les entreprises suite à une activité en ligne en plein essor . Il se nourrit également de données sensorielles (de machine à machine) . Il se retrouve également dans les entrepôts ou magasins de données existants dont l’envergure atteint aujourd’hui plusieurs péta-octets de données .

Diversité

Autre facette du phénomène « Big Data » : la nécessité d’analyser des données semi-structurées et non structurées . Or, l’analyse de texte, vidéo et autres formes de données multimédias nécessitera une architecture et des technologies totalement différentes . Face à l’engouement pour les réseaux sociaux, par exemple, nombre de services marketing s’évertuent à effectuer leurs analyses de marque et de ressenti sur la base des commentaires postés sur Facebook, Twitter et YouTube . Cette dynamique gagne encore en complexité en Asie, avec la présence de sites sociaux locaux tels que RenRen en Chine et Nate en Corée .

vitesse

Ces données exigeront également d’être analysées plus régulièrement – il s’agira, par exemple, de prendre en compte la totalité des transactions, et non un échantillon, afi n de mesurer pleinement, en temps réel, le risque lié à une opération .

En résumé, le « Big Data » désigne ces tables de données dont le volume, la diversité, la vitesse de prolifération et la complexité interdisent le stockage et la gestion par les bases de données et architectures actuelles .

Plate-forme de gestion des entrepôts de données

Gestion d’entrepôts de données

Génération d’entrepôts de données

Extraction de données, transformation, chargement ; qualité des données

Volume de

données

Durée

Données non

structurées (vidéo,

richmédia, etc)

Données semi-

structurées (logs

Web, fl ux de réseaux

sociaux, etc .)

Données = Données = Données = Données =

volume, volume,

complexité, complexité,

vitesse et variétévitesse et variétévitesse et variétévitesse et variété

Page 10: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

6

SAS White Paper

Livre blanc

IDC s’abstient de fixer un seuil (celui du téra-octet, par exemple), qui varierait forcément en fonction du secteur et devrait obligatoirement être revu à la hausse dans la durée . Il accordera davantage d’importance à la valeur ajoutée que les entreprises peuvent retirer de ce phénomène — indissociable d’une démarche consistant à repenser leurs stratégies informatiques .

AUTRES DÉFINITIONS :

Hadoop, MapReduce, KVS (Key Value Store)

La démocratisation du phénomène « Big Data » a donné naissance à toute une série de nouvelles technologies . Le tableau ci-dessous les présente en contexte (liste non exhaustive) .

Tableau 1 - Technologies « Big Data » (terminologie)

Technologie Contexte

Big Table Système de base de données distribuée propriétaire reposant sur GFS (Google File System). A inspiré HBase.

Cassandra SGDB Open Source (libre) conçu pour gérer d’énormes quantités de données réparties sur plusieurs serveurs. Développé à l’origine par Facebook, ce système est aujourd’hui l’un des projets de la Fondation Apache.

Entrepôt de données et Appliance analytique (Data Warehouse et Analytical Appliance)

Ensemble intégré de serveurs, solutions de stockage, système(s) d’exploitation, bases de données, outils décisionnels, logiciels de data mining et autres logiciels spécifiquement pré-installés et pré-optimisés pour l’entreposage de données.

Système distribué Recours à plusieurs ordinateurs, communiquant en réseau, pour résoudre un problème de calcul. Ce dernier est décomposé en plusieurs tâches, résolues individuellement par un ou plusieurs postes travaillant en parallèle. Amélioration du ratio prix/performances, fiabilité optimisée et évolutivité accrue.

GFS (Google File System)

Système de fichiers distribué propriétaire mis au point par Google ; a partiellement inspiré Hadoop.

Hadoop Framework logiciel Open Source (libre) pour le traitement de gigantesques volumes de données sur certains types de problèmes dans le cadre d’un système distribué. Il s’inspire de Google MapReduce et de GFS (Google File System). Développé à l’origine par Yahoo!, ce système est aujourd’hui l’un des projets de la Fondation Apache.

HBase Système Open Source (libre) de gestion de base de données non relationnelle distribuée, prenant pour modèle Big Table de Google. Développé à l’origine par Powerset, il est aujourd’hui l’un des projets de la Fondation Apache rattaché à Hadoop.

MapReduce Framework logiciel introduit par Google autorisant certains types de calculs à partir de tables de données très volumineuses, dans le cadre d’un système distribué. Également implémenté dans Hadoop.

Base de données non relationnelle/KVS (Key Value Store)

Dans une base de données non relationnelle, le stockage des données n’est pas organisé en lignes et en colonnes, à la différence d’une base de données relationnelle. Les KVS (Key Value Store) autorisent la gestion d’entités sans schéma (NoSQL).

Page 11: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

7

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

Certains de ces termes seront utilisés dans le présent livre blanc, mais il ne s’agit pas ici de les analyser en détail car, comme l’a fait remarquer un responsable informatique dernièrement, « connaître la technologie est une chose, mais savoir l’appliquer à l’environnement adéquat en est une autre » .

Il convient de confronter la nouvelle technologie aux impératifs métier, et non pas de la disséquer pour le plaisir . Cela étant, la plupart des décideurs informatiques ignorent tout des technologies et tendances dans ce domaine — et, dans le cas contraire, leur stratégie est de demander à deux ou trois membres de l’équipe architecture de tester les nouvelles technologies (calcul en mémoire ou in-database, Hadoop, MapReduce, KVS, etc .) censées gérer le phénomène « Big Data » .

ANALYTIQUE « BIG DATA » :

La confrontation de deux ères

La question a été posée maintes fois : en quoi ce phénomène est-il nouveau ? Cette section oppose la business analytics classique de l’ère « pré-Big Data » à l’analytique « Big Data » de la nouvelle ère . Elle aborde également les différents scénarios d’utilisation qui devraient, selon IDC, devenir monnaie courante dans différents secteurs .

La majorité des structures informatiques ont su faire évoluer l’architecture de leurs infrastructures avec le temps ; d’environnements essentiellement mainframe dans les années 1980, elles sont successivement passées à des architectures client-serveur dans les années 1990, puis au Web au début de ce siècle, pour adopter des infrastructures communément baptisées « cloud privé » .

Ce présumé « nirvana » est constitué d’un ensemble consolidé et virtualisé de ressources d’infrastructure (serveur, stockage et réseau) auto-allouées par les utilisateurs métier ; le tout est assorti de contrats de niveaux de service (SLA) définissant de manière transparente les engagements à respecter en matière de sécurité, de performance, de disponibilité et de coûts . Rares sont les entreprises dont l’infrastructure à atteint ce « nirvana » ; la plupart continuent à se débattre avec un enchevêtrement de ressources informatiques au sein de leur centre de données, victimes d’un effet spaghetti .

Et aujourd’hui, une force extérieure baptisée « Big Data » oblige les DSI à repenser l’architecture de leur infrastructure, à la lumière des modalités de déploiement des outils analytiques dans l’entreprise .

Voici les changements constatés par IDC dans l’univers de l’infrastructure qui ont une incidence croissante sur l’analytique « Big Data » :

Tableau 2 - Confrontation de deux ères (Infrastructure « Big Data »)

Ancienne ère Nouvelle ère

Colocation Infrastructure en silos Mise en commun des ressources

Architecture Performances « ajustées » Montée en capacité linéaire (traitement parallèle distribué et stockage « en mémoire »)

Modèle de déploiement Sur site Hybride (avec fonctionnalités de « cloud bursting ») et large utilisation de l’appliance

Page 12: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

8

SAS White Paper

Livre blanc

À partir des travaux et études menés par IDC dans ce domaine, trois suggestions s’imposent aux DSI :

« clouD bursting »

Le cloud privé (interne) sera en parfaite adéquation avec les besoins analytiques de l’entreprise décrits précédemment . Encore faut-il que les DSI évaluent précisément la charge de travail et limitent autant que possible les risques . L’évaluation du « cloud bursting », autrement dit de la capacité à utiliser des services de cloud externes (sur le modèle Iaas, Infrastructure as a Service), revêt une importance capitale, surtout lorsque les entreprises commencent à exploiter des environnements analytiques en temps réel . Il s’agit de s’assurer que les ressources d’infrastructure épousent la demande – et qu’il n’existe aucun problème de performance et de disponibilité .

appliance analytique

S’agissant des modèles de déploiement, IDC constate que les clients aux prises avec le phénomène « Big Data » dégagent des gains de performances significatifs des appliances analytiques . De plus, les logiciels étant optimisés et pré-intégrés avec les appliances, les durées de déploiement sont considérablement écourtées .

Dans le cadre d’une récente enquête d’envergure mondiale, 10% des DSI interrogés ont avoué s’intéresser au modèle de déploiement des appliances analytiques pour 2011 . IDC est d’ailleurs convaincu que la demande d’architectures de référence s’inscrira en hausse compte tenu des efforts déployés par ces mêmes DSI pour intégrer ces appliances au sein des environnements d’entreposage de données existants . Face à cet engouement pour les appliances analytiques, les services informatiques, dans l’affectation de leurs ressources budgétaires, « pénaliseront » les profils techniques (justifiant de connaissances en installation, configuration et administration, par exemple) au profit des profils analytiques de haut niveau, indispensables au pilotage décisionnel multidisciplinaire .

arcHitecture D’entreprise

L’analytique d’entreprise requiert une architecture d’entreprise offrant une remarquable montée en capacité — qu’il s’avère urgent d’adopter face à l’essor de l’analytique « Big Data » . Les établissements doivent s’équiper d’un « environnement analytique hautes performances » couplant gestion analytique in-database, traitement en parallèle et stockage en mémoire pour gérer des données qui augmentent en volume, en rapidité et en diversité . S’agissant des données non structurées, il convient d’accorder plus d’attention à Hadoop — framework logiciel Open Source géré par Apache permettant le traitement distribué de tables volumineuses entre des ordinateurs organisés en clusters . Néanmoins, il existera perpétuellement des conflits entre les standards internationaux et les impératifs locaux – et l’utilisation de Hadoop en est un parfait exemple .

Il faut également s’interroger sur la capacité à traiter des charges de travail mixtes (analytiques et opérationnelles, par exemple) dans le même environnement d’infrastructure, comme celui de l’appliance cité précédemment . Les DSI doivent s’intéresser aux outils qui, dans la résolution de problématiques métier spécifiques, leur apporteront une véritable valeur ajoutée, sans rien ignorer des standards et spécifications en matière d’architecture . Si certains modèles de gouvernance internationaux interdisent d’utiliser plusieurs de ces technologies au sein d’un environnement de production, les services informatiques seront néanmoins contraints de réexaminer les modalités d’application de l’architecture d’entreprise en local, compte tenu des attentes .

Page 13: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

9

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

La vérité, c’est qu’il devient extrêmement compliqué de traiter et d’analyser des volumétries de données de plus en plus massives qui obligent à réévaluer les stratégies de gestion de l’information dans la majorité des entreprises ayant investi dans la business analytics . Pourtant, l’enjeu est énorme . Si vous vous ingéniez à optimiser le tarif de chacun des articles proposés par une chaîne de distribution internationale ou à détecter la fraude en temps réel, vous mesurez pleinement le genre de problématiques que l’analytique « Big Data » peut résoudre .

Tableau 3 - Confrontation de deux ères (Analytique « Big Data »)

Ancienne ère Nouvelle ère

Tables Prédéfi nies Globales et itératives

Vitesse de traitement des données

Par lots/en batch Proactive et dynamique (en temps réel s’il y a lieu)

Analyse des données Essentiellement historique Analyse prédictive, prévisions et optimisation

Néanmoins, malgré le potentiel évident de cette discipline analytique, il faut savoir qu’elle ne sera pas nécessairement utile ou applicable à chaque fois . Pour IDC, les scénarios d’utilisation envisageables s’articulent autour de deux dimensions inhérentes au phénomène « Big Data », à savoir la vitesse et la diversité comme indiqué ci-après :

Figure 4 - Analytique « Big Data » et scénarios d’utilisation potentiels

Risques de crédit et de marché dans le

secteur bancaire

Détection des fraudes (à la carte bancaire) et délits fi nanciers (lutte anti-blanchiment) dans le Détection des fraudes (à la carte bancaire) et délits fi nanciers (lutte anti-blanchiment) dans le Détection des fraudes (à la carte bancaire) et délits fi nanciers (lutte anti-blanchiment) dans le

secteur bancaire (analyse des médias sociaux incluse)secteur bancaire (analyse des médias sociaux incluse)secteur bancaire (analyse des médias sociaux incluse)

Marketing événementiel dans les services fi nanciers et les télécommunicationsMarketing événementiel dans les services fi nanciers et les télécommunicationsMarketing événementiel dans les services fi nanciers et les télécommunications

Optimisation des démarques dans la grande distributionOptimisation des démarques dans la grande distributionOptimisation des démarques dans la grande distribution

Escroqueries et fraude fi scale dans le secteur publicEscroqueries et fraude fi scale dans le secteur publicEscroqueries et fraude fi scale dans le secteur public

Maintenance prédictive Maintenance prédictive

dans l’aérospatiale

Analyse de sentiment sur les médias Analyse de sentiment sur les médias Analyse de sentiment sur les médias

sociaux

Prévision de la demande dans

l’industrie

Analyse de pathologies à Analyse de pathologies à Analyse de pathologies à

partir de dossiers médicaux partir de dossiers médicaux partir de dossiers médicaux

électroniquesélectroniquesélectroniques

Entrepôt de données

traditionnelText MiningText MiningText Mining

Analyse de vidéosurveillance

pour la sécurité publique

structurées semi-structurées non structurées

par lot

en temps réel

Vitesse des

données

Variété des données

Page 14: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

10

SAS White Paper

Livre blanc

Pour mesurer tout l’intérêt de l’analytique « Big Data », et sa valeur ajoutée pour l’entreprise, examinons ces scénarios d’utilisation de plus près :

Détection De la frauDe en temps réel Dans le secteur bancaire

Voilà qui suppose, pour l’établissement bancaire, d’être capable de détecter, prévenir et gérer la fraude sur plusieurs produits, activités et canaux . Il doit donc être en mesure de retracer l’historique des différents types d’items (carte, compte, client, identifiant de terminal ou adresse IP) associées aux transactions, en détectant immédiatement les comportements clients anormaux dans les points de vente . Ces informations peuvent être exploitées par plusieurs modèles prédictifs pour la détection de fraudes et l’évaluation du risque de crédit .

optimisation Des Démarques Dans la granDe Distribution

La capacité d’un distributeur à optimiser, en temps réel, les tarifs pratiqués sur un large éventail de produits, en fonction de scénarios d’anticipation de la demande (tenant compte des offres promotionnelles, de l’incidence saisonnière et d’événements importants), est déterminante pour ses marges . Si elle se double d’une analyse de sentiment sur les médias sociaux, la demande de certains produits sera évaluée quasiment en temps réel .

analyse De patHologies à partir De Dossiers méDicaux électroniques

Avec la modernisation des services de santé, un analyste peut à présent disposer des antécédents médicaux d’un patient au format électronique . Voilà qui ouvrira de formidables possibilités à l’analytique « Big Data » . Dans le cas de pathologies de type diabètes, par exemple, la mise en corrélation des antécédents médicaux des patients avec des données diététiques (potentiellement issues de l’analyse du panier de consommation dans la grande distribution) et un programme d’exercices physiques adaptés seront riches d’enseignements pour les praticiens .

LE FACTEUR COMPÉTENCES

IDC en est convaincu, la véritable valeur ajoutée de l’analytique « Big Data » résidera dans l’analyse poussée des données générées par les entreprises, qui augmentent en volume, en diversité et en rapidité . En Asie, la plupart des sociétés (hormis certaines multinationales puisque le phénomène émane essentiellement des Etats-Unis et de l’Europe) ignorent tout du type et du niveau de compétences requises . IDC justifie cette méconnaissance par un manque de sensibilisation et un déficit historique de compétences en gestion analytique de haut niveau (indépendamment du phénomène « Big Data ») .

L’analytique de haut niveau exigera de nouvelles compétences dans deux domaines clés :

profil tecHnique

Des compétences techniques seront indispensables pour maîtriser la nouvelle catégorie de technologies indispensables au traitement, à l’exploration et à l’analyse de ces gigantesques tables de données inexploitables par des bases de données et architectures traditionnelle (calcul en mémoire, Hadoop, MapReduce, KVS, etc .) . Certaines de ces technologies seront déployées sous forme d’appliance — pour tirer parti des données, il faudra alors justifier de connaissances permettant de mieux appréhender les modalités d’interaction du logiciel avec le matériel .

Page 15: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

11

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

analyste/statisticien D’un nouveau genre

L’une des différences fondamentales entre l’analytique traditionnelle et ce à quoi nous sommes confrontés à l’ère des « Big Data » réside dans la collecte systématique de données, sans a priori sur le fait que la donnée soit utile ou non à collecter — ce qui, du point de vue analytique, revient à « considérer que l’on ne peut pas savoir a priori ce que l’on ne sait pas » .

Concrètement, les données non structurées sont tellement nombreuses que les variables et modèles analytiques risquent d’être entièrement nouveaux . D’où la nécessité de repenser l’approche analytique des utilisateurs chevronnés en créant une « mentalité d’explorateur » où il s’agit toujours de partir à la découverte . En règle générale, des connaissances en data mining et en statistiques constituerait un excellent point de départ pour ce type d’analyse .

À l’avenir, il y aura une demande de plus en plus marquée pour ces « scientifiques des données » . Cette nouvelle génération d’analystes, versée dans les statistiques, sera capable d’extraire des informations à partir d’une avalanche de données pour apporter une valeur ajoutée à des experts non spécialisés en analytique . Elle sera de surcroît parfaitement à même d’identifier les nouveaux algorithmes et modèles analytiques les plus efficaces à court terme .

IDC insiste sur l’intérêt de ces profils analytiques . Leurs rôles et responsabilités ne sont pas définis — mais ils entrent parfaitement dans le cadre de ce qui a été évoqué précédemment, s’agissant de l’afflux de données non structurées et de variables et modèles analytiques probablement inédits . Il s’agit aussi, pour eux, de faire preuve de créativité par rapport à la gestion analytique qu’il convient d’appliquer à ces types et structures de données d’un nouveau genre .

Prenons l’exemple des réseaux sociaux (qui contribuent au phénomène « Big Data » au travers de données semi-structurées et non structurées) : nombre de services marketing s’évertuent à réaliser des analyses de marque et de sentiment sur la base des contenus publiés sur Facebook, Twitter et YouTube (soit de gigantesques quantités de données, comme vous vous en doutez) . Cette dynamique gagne encore en complexité en Asie, par exemple avec la présence de sites sociaux locaux tels que RenRen en Chine et Nate en Corée .

Actuellement, l’infrastructure informatique est loin d’être prioritaire pour le directeur marketing, qui n’est pas qualifié pour identifier les chantiers à entreprendre (et, dans de nombreux cas, n’a toujours pas défini le rôle qu’il doit tenir dans les règles ou dans la gouvernance d’utilisation des médias sociaux) . La constitution du service informatique mérite donc d’être réexaminée en termes de compétences techniques, métier et relationnelles .

Page 16: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

12

SAS White Paper

Livre blanc

Le modèle de maturité ci-après décrit l’évolution, selon IDC, de ces compétences (techniques et métier) dans le contexte d’entreprises qui ont progressivement adopté la business analytics . Leur évolution probable à l’ère de l’analytique « Big Data » est également incluse :

Figure 5 - Modèle de maturité de l’analytique « Big Data »

Phase Ancienne ère Nouvelle ère

Impact Pilote Analytique départementale

Analytique d’entreprise Analytique « Big Data »

Profi l du personnel (informatique)

Peu ou pas d’expertise en analytique ; connaissance de base des outils BI

Accent mis sur la performance, la disponibilité et la sécurité par l’équipe responsable des entrepôts de données

Modélisateurs et « data stewards » chevronnés, acteurs incontournables du service informatique

Centre de compétences en business analytics (BACC) composé de « scientifi ques des données »

Profi l du personnel (métier/informatique)

Connaissance fonctionnelle des outils BI

Rares analystes métier –usage limité d’outils d’analyse avancée

Recours à des experts en modélisation analytique et statisticiens

Intégration de la résolution de problèmes complexes au Centre de compétences en business analytics (BACC)

Technologie et outils Reporting BI et tableaux de bord simples sur des données historiques

Implémentation d’entrepôts de données, large emploi d’outils décisionnels, peu de magasins de données analytiques

Data mining à l’intérieur de la base de données, et usage restreint du traitement en parallèle et de l’appliance analytique

Large adoption de l’appliance pour des charges de travail multiples. Architecture et gouvernance pour les nouvelles technologies

Impact fi nancier Aucun impact fi nancier substantiel. Absence de modèles de retour sur investissement

Instauration de certains indicateurs de performance clés (KPI), générateurs de revenus, avec un retour sur investissement clairement défi ni

Impact signifi catif sur le chiffre d’affaires (mesuré et contrôlé régulièrement)

Stratégie commerciale et différenciation concurrentielle reposent sur la gestion analytique

Gouvernance des données

Inexistante ou presque (attention : danger !)

Modèle d’entrepôt de données et architecture classiques

Défi nitions de données et modèles normalisés

Stratégie de gestion des données maîtres clairement défi nie (MDM)

Branches d’activité Mécontentes..... Visible Alignement (responsables de branches d’activité inclus)

Inter-départemental (avec visibilité du PDG)

Implication du DSI Imperceptible Limitée Réelle Volonté de transformation

% de clients (estimations IDC)

20% 65% 10% 5%

Pour disposer des compétences adaptées et les développer à l’ère de l’analytique « Big Data », il sera primordial de créer un Centre de compétences en business analytics (BACC) aux confi ns des pôles métier et informatique . Selon IDC, cette structure ne se contente pas de clarifi er les rôles et responsabilités des principaux acteurs de cette transformation . Elle procure également une meilleure visibilité en interne, instaure un mécanisme de formation et fait le lien entre les pôles informatique et métier (notamment les équipes Marketing et Ventes, dont les principaux acteurs devront être représentés) puisque l’amélioration des prises de décision du personnel en front-offi ce constituera la fi nalité première de ces projets .

Page 17: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

13

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

En complément de sa vocation à cultiver les compétences, cette structure devrait, selon IDC, s’investir de la sorte :

» Identifier/déployer les technologies

» Créer un business case et justifier du retour sur investissement

» Instaurer un cadre de gouvernance des données assorti de principes d’action clairs en matière de gestion des données maîtres, de qualité et de modèles de données

» Veiller à l’adéquation des pôles informatique et métier en associant les principales parties prenantes au moment opportun

» Associer le DSI à la refonte informatique, indispensable à l’impact commercial recherché

Très peu d’entreprises ont atteint le niveau de maturité leur permettant de tirer véritablement parti du potentiel représenté par l’analytique « Big Data » ; et, dans les faits, il est difficile de remplir tous les critères, mais cette transformation est nécessaire pour permettre aux entreprises de se différencier véritablement dans l’environnement économique actuel . Le rôle joué par le DSI (avec le concours du service informatique) sera essentiel dans cette transformation . La section suivante expose quelques suggestions qui, de l’avis d’IDC, méritent d’être prises en compte dans ce contexte .

Checklist du DSI dans la perspective de l’analytique « Big Data »

Devenir un arcHitecte Du futur

Historiquement, les travaux analytiques étaient exécutés à l’aide de « palliatifs », en raison du peu d’évolutivité du matériel sous-jacent . Nombre de services informatiques sont, par conséquent, enclins à créer des vues matérialisées ou des structures de données précalculées qui évitent aux utilisateurs de dégrader les performances des systèmes traitant les données sous-jacentes . Grâce à la clusterisation, au traitement en parallèle et aux technologies en mémoire, ces données sous-jacentes peuvent toutes être utilisées dans l’environnement analytique .

Il est néanmoins essentiel de ne pas commettre l’erreur d’accroître aveuglément les capacités, en misant sur la disponibilité . Il est impératif d’évaluer plusieurs modèles de déploiement (le mode cloud, notamment pour ses fonctionnalités de « cloud bursting », les appliances analytiques, mais aussi le modèle client-serveur traditionnel ou encore l’architecture Web à trois niveaux) au cas par cas, puisque la solution universelle est un leurre .

aDopter une « mentalité D’explorateur »

L’une des différences fondamentales entre l’analytique traditionnelle et ce à quoi nous sommes confrontés à l’ère du « Big Data » réside dans la collecte systématique de données, sans a priori sur le fait que la donnée soit utile ou non à collecter — ce qui, du point de vue analytique, revient à « considérer que l’on ne peut pas savoir a priori ce que l’on ne sait pas » . Concrètement, les données non structurées sont tellement nombreuses que les variables et modèles analytiques risquent d’être entièrement nouveaux . D’où la nécessité de repenser l’approche analytique observée par les utilisateurs chevronnés dans le développement de modèles en créant une « mentalité d’explorateur », où il s’agit toujours de partir à la découverte, en particulier dans les liens établis entre données non structurées, semi-structurées et structurées .

Page 18: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

14

SAS White Paper

Livre blanc

Dans ce contexte, il s’agira de faire valoir des compétences d’un nouveau genre afin de cerner toutes les nuances des commentaires exprimés sur les réseaux sociaux (par les générations Y, Z voire millénaire) .

moDérer le « bricolage » informatique

À chaque fois qu’une nouvelle série de technologies intéressantes fait son apparition sur le marché, les services informatiques ont tendance à les « bricoler » — ce qui a une incidence immédiate sur la rentabilité de l’entreprise . Même si une certaine dose d’expérimentation est souhaitable (et parfaitement avec phase avec la « mentalité d’explorateur » décrite précédemment ; Hadoop et MapReduce font d’ailleurs indéniablement partie de cette catégorie), les DSI doivent veiller à ce que ces expérimentations ne se fassent pas au détriment de la création de valeur ajoutée .

constituer l’équipe aDéquate

Ce processus exige, dans un premier temps, que le DSI évalue son propre service informatique afin d’identifier les niveaux de compétences et structures organisationnelles appropriés . Dans certains cas, une refonte devra être opérée en interne pour que le changement soit perceptible . Ensuite, les individus compétents doivent être habilités à exécuter la stratégie analytique, en s’appuyant sur les processus et structures de gouvernance en place, pour pouvoir répondre efficacement aux attentes métier .

Voilà qui suppose, pour le DSI, de mieux appréhender le potentiel de la technologie analytique sous-jacente, mais aussi de collaborer avec les responsables de branches d’activité afin de recruter des professionnels dotés d’un esprit analytique, capables d’exploiter de manière optimale les capacités technologiques latentes .

Déployer les ressources analytiques à l’écHelle De l’entreprise

La majorité des projets informatiques menés dans ce domaine consistent à créer un entrepôt de données qui, couplé à divers outils décisionnels, permet de faire remonter les informations sous-jacentes aux utilisateurs . Toutefois, faute d’expertise informatique en fonctions analytiques élaborées, ces projets demeurent largement départementaux et tactiques par nature, favorisant le cloisonnement des mentalités .

Ainsi, une évaluation de la rentabilité ajustée du risque (calculée à partir de données financières, d’une cote de solvabilité et de données clients) serait impossible . Un changement s’impose et, pour ce faire, il faut redéfinir le niveau de collaboration entre les pôles informatique et métier, sous la houlette d’un DSI participant personnellement au déploiement des outils analytiques à l’échelle de l’entreprise afin d’assurer la menée à bien de ces projets .

gouvernance et business enablement

C’est dans ce domaine que les investissements réalisés dans les technologies de data warehousing, à condition d’avoir été judicieux, porteront leurs fruits . Les modèles de données et l’architecture de référence adoptés par le pôle informatique garantiront la cohérence des définitions de données et standards entre les différents services de l’entreprise . Certes, il reste du travail à accomplir en gestion des données maîtresses (MDM) pour combler le fossé opérationnel et analytique autour de la gouvernance des données — mais, fondamentalement, cette plate-forme devrait procurer la gestion et la maîtrise indispensables au pôle informatique .

Page 19: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

15

LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSI

S’agissant du business enablement, IDC voit apparaître une nouvelle catégorie de projets associant business analytics et gestion de processus métier — plus spécifiquement, des logiciels de gestion décisionnelle comprenant des outils adaptés à la gestion des règles, au data mining, aux requêtes et au reporting, au traitement d’événements complexes (CEP), à la collaboration, aux suites BPM, aux recherches et à l’analyse de contenu .

Pour IDC, les services informatiques qui, en complément de leurs précédents investissements dans les technologies de data warehousing et décisionnelles, justifieront d’une meilleure appréhension du processus décisionnel à chaque niveau ainsi que des logiciels de gestion décisionnelle seront les mieux placés pour gérer le dilemme gouvernance informatique-business enablement .

CONCLUSION

Malgré des degrés de maturité et taux d’adoption différents, les entreprises sont prêtes à exploiter des solutions et offres de business analytics plus évoluées . Elles doivent donc opter pour une planification stratégique et élaborer une feuille de route solide avant de s’y rallier . La nouvelle génération de décideurs, davantage sensibilisée aux avantages concurrentiels liés au business analytics, mènera une politique d’adoption plus offensive . Pour IDC, une approche nouvelle s’impose à l’avenir ; elle seule permettra d’effectuer les changements nécessaires, en ce sens :

» Le rôle du DSI doit être affirmé, et celui-ci mieux à même de transformer l’établissement en participant activement au déploiement de la stratégie analytique d’entreprise — et en veillant à ce que ces technologies aient l’impact commercial escompté .

» Les autres modèles de déploiement (appliance, « en mémoire » et Hadoop pour les « Big Data ») doivent être évalués .

» Il s’agit de capter l’attention des responsables de branches d’activité alors même que les projets de business analytics sont intégrés à des technologies de traitement d’événements complexes (CEP) et de supervision des activités métier (BAM) pour piloter une nouvelle catégorie de projets définis par IDC comme relevant de la « gestion décisionnelle » .

Le rôle du DSI s’affirme progressivement au sein de la direction et celui-ci devient incontournable dans l’achat d’applications évoluées, de business analytics notamment . Le DSI et le service informatique n’ont d’autre choix que de tirer parti d’un large éventail de fonctions de business analytics pour définir une nouvelle stratégie de gestion de l’information capable de gérer la nouvelle dynamique « Big Data » et de doter les intervenants métier d’outils décisionnels optimisés .

Page 20: Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

SAS Institute s. a. s. – DOMAINE DE GREGY - GREGY-SUR-YERRES - 77257 BRIE COMTE ROBERT - FRANCE

TEL. : +33(0) 1 60 62 11 11 FAX : +33(0) 1 60 62 11 99 www.sas.com/franceCopyright © 2012, SAS Institue Inc. Tous droits réservés.

#AP14962U

À PROPOS DE CETTE PUBLICATION

Cette publication a été produite par IDC Go-to-Market Services . IDC Go-to-Market Services propose les contenus IDC dans un large éventail de formats à diverses entreprises, pour diffusion . Une licence de distribution de contenu IDC ne sous-entend ni un cautionnement de son titulaire ni une quelconque opinion sur celui-ci .

DROIT D’AUTEUR ET RESTRICTIONS

Toute information IDC ou référence à IDC destinée à être utilisée dans une publicité, un communiqué de presse ou un support promotionnel requiert au préalable l’approbation écrite d’IDC . Pour les demandes d’autorisation, contactez GMS au 65-6829-7757 ou à l’adresse gmsap@idc .com . Une autre autorisation d’IDC est requise pour la traduction et/ou la localisation de ce document .

Pour de plus amples informations sur IDC, consultez le site www .idc .com . Pour de plus amples informations sur IDC GMS, consultez le site www .idc .com/gms .

IDC Asie/Pacifique, 80 Anson Road, #38-00 Fuji Xerox Towers, Singapour 079970 .

Tél . : 65 .6226 .0330 Fax : 65 .6220 .6116 www .idc .com .

Copyright 2011 IDC . Reproduction interdite sans autorisation . Tous droits réservés .

WP010FCE0312