38
Romain Chaumais – [email protected] Directeur du pôle Business Intelligence Big Data : noSql, Map&Reduce, RDBMS Quoi utiliser et quand ?

OWF12/BIG DATA Presentation big data owf ysance

Embed Size (px)

Citation preview

Page 1: OWF12/BIG DATA Presentation big data owf ysance

!   Romain Chaumais – [email protected] Directeur du pôle Business Intelligence

Big Data : noSql, Map&Reduce, RDBMS Quoi utiliser et quand ?

Page 2: OWF12/BIG DATA Presentation big data owf ysance

Les origines du phénomène Big Data

Page 3: OWF12/BIG DATA Presentation big data owf ysance

Big Data ?

+1 203 900 000

164 500 000

1 368 400 000

Le nombre de transactions aux péages des autoroutes de France en 2010

41,5M de véhicules / 84,1Mrd de Km

Page 4: OWF12/BIG DATA Presentation big data owf ysance

Evolution d’un péage autoroutier

Analogique Anonyme Product Centric

Page 5: OWF12/BIG DATA Presentation big data owf ysance

Vers un télépéage et le Big Data

Numérique Historisé et analysé

Customer Centric

Page 6: OWF12/BIG DATA Presentation big data owf ysance

L’ampleur du déluge de données

! Plus de 1 million de transactions clients / heure

! 2 500 To de données en base

!  500 millions de visiteurs / jours

!  50 milliards de photos stockées

!  90 milliards de contenus partagés chaque mois

!  7,2 milliards de pages vues / jour

!  88 milliards de recherches / mois

!  20 Po de données traitées / jour

Web-Scale

Page 7: OWF12/BIG DATA Presentation big data owf ysance

Volume de données

•  Démarré en 2000

•  En quelques semaines, a collecté plus de données que dans toute l’histoire de l’astronomie

•  A ce jour, a généré plus de 160 To de data archivées

Sloan Digital Sky Survey - Nouveau Mexique

Page 8: OWF12/BIG DATA Presentation big data owf ysance

Volume de données

•  Démarrera en 2016

•  Génèrera plus de 160 To de data en ...

Large Synoptic Survey Telescope - Chili

4 jours !!

Page 9: OWF12/BIG DATA Presentation big data owf ysance

9

Raw Data ? B

Page 10: OWF12/BIG DATA Presentation big data owf ysance

Raw Data = Plus d’explorations

Page 11: OWF12/BIG DATA Presentation big data owf ysance

Qui aujourd’hui produit et consomme la donnée ?

Human generated data Machine generated data

Page 12: OWF12/BIG DATA Presentation big data owf ysance

Big Data : Proposition de définition La règle des 3 V

Volume Vélocité

Variété

Collecte & stockage d’un grand volume de données

Intégration, traitement et restitution en temps limité

Données structurées mais aussi non structurées (texte, audio, vidéos, click streams, log files, etc.

Page 13: OWF12/BIG DATA Presentation big data owf ysance

Exemples de projets Big Data

Page 14: OWF12/BIG DATA Presentation big data owf ysance

Exemples Map & Reduce

Page 15: OWF12/BIG DATA Presentation big data owf ysance

Exemple projet Big Data Ysance

•  Casual Game consistant à échanger des objets avec ses amis ! 1,3 millions de joueurs mensuels

•  Analyse des interactions entre les joueurs et leurs amis ! Analyse du graphe social des joueurs ! Catégorisation des joueurs selon le

nombre d'amis jouant aussi à IsCool •  Mise en place d'un parcours de jeux

personnalisé selon le nombre d'amis ! Objectif : Avoir au moins 10 amis avec

qui jouer à IsCool

•  >> Multiplication du CA

Page 16: OWF12/BIG DATA Presentation big data owf ysance

VSC : CHALLENGE TECHNO POUR UNE PROMESSE BUSINESS !

Comment  offrir  plus  d’usage  B2C  aux  clients  sur  un  legacy  limité  au  B2B  ?    

Des  clients  qui  exprimaient  leur  mécontentement    «  trop  d'informa.ons  "accrocheuses",  décalage  avec  ce  que  l'on  trouve  ensuite.\je  trouve  rarement  un  trajet  en  promo.on  à  par.r  de  ma  ville  (Tours  )  »      «  J'aDendais  de  pouvoir  avoir  un  tarif  très  avantageux  avec  une  date  libre  en  complétant  simplement  départ  et  arrivée  du  train  ou  autre  mode  de  locomo.on  choisi.  »  

Page 17: OWF12/BIG DATA Presentation big data owf ysance

Calendrier des prix : projet Big Data

•  Voyages-sncf : Calendrier des prix

Volume Vélocité

Variété

Page 18: OWF12/BIG DATA Presentation big data owf ysance

Comment le Big Data peut-il créer de la valeur ? •  En apportant de la transparence et la suppression des silos de

données

•  En simplifiant l’exploration des données, l’expérimentation, la compréhension de phénomènes, l’identification de nouvelles tendances : Data discovery / Data visualization

•  En permettant la mise en place d’un CRM hyper segmenté tendant vers du One-To-One

•  En offrant une véritable aide à la décision via des algorithmes riches exécutés automatiquement : Datamining / prédictif

•  En devant le socle actif de nouveaux produits, services et Business modèle orientés données

Page 19: OWF12/BIG DATA Presentation big data owf ysance

Paysage Big Data / No SQL

Page 20: OWF12/BIG DATA Presentation big data owf ysance

Les problématiques du Big Data

Capturer / Acheminer

Stocker / Organiser

Traiter / Consolider

Partager / Sécuriser

Analyser / Visualiser

Page 21: OWF12/BIG DATA Presentation big data owf ysance

Des acteurs du Big Data

MS  PowerPivot  

Page 22: OWF12/BIG DATA Presentation big data owf ysance

Classification des « bases de données » The CAP Theorem

Source : http://blog.nahurst.com

A

P C Partition tolerance means that the system works well across physical network partitions

Consistency means that each client always has the same view of the data

Availability means that all clients can always read and write

Pick only 2

CA AP

CP

•  RDBMSs (Oracle, SQLServer, MySQL) •  Teradata, Exadata, Netezza, Fast Track •  Vertica, Greenplum, InfiniDB •  Azure Table Storage

•  BigTable, Hypertable, Hbase, •  Hive, Aster Data •  MongoDB, Terrastore •  Scalaris, Berkeley DB, MemcacheDB •  Redis, Scalaris

•  Dynamo, Voldemort, Tokyo Cabinet, KAI •  SimpleDB, CouchDB, Riak •  Cassandra,

Data Models •  Relational •  Relational MPP •  Key - Value •  Column Oriented / Tabular •  Document Oriented

Big Data : architecture alternative

Page 23: OWF12/BIG DATA Presentation big data owf ysance

Classification des moteurs de traitement des données de type Big Data

Moteur spécialisé

Appliance MPP

Framework Map & Reduce

Performan

ce  /  CPU

 

+

_

Volume  de  données  traitées  

+

_

Structura:

on  des  don

nées  

+

_

Page 24: OWF12/BIG DATA Presentation big data owf ysance

Hadoop : Plate-forme Big Data de référence

•  Hadoop : HDFS + MapReduce = Stockage + Traitement

•  Historique d’Hadoop : ! Inspiré de Google Map Reduce - Première version en 2008 (Yahoo) ! Projet de la fondation Apache. Version 1.0 en janvier 2012. ! Utilisateurs : Yahoo, Facebook, Tweeter, LinkedIn, eBay, etc.

•  Hadoop : Leader des solutions de MapReduce Natives Hadoop Dérivées Hadoop Autres

BIGDATA

Page 25: OWF12/BIG DATA Presentation big data owf ysance

L’écosystème Hadoop = Distribution

Data Integration layer

Flume  

Sqoop  

Log  Data  

RDBMS  

File Data Row / Column HBase

MR : Distributed Data Processing

HDFS : Distributed File System

API  HBase  

Advanced Query Engine (Hive, Pig, Cascalog…)

Data Mining Index / search ODBC / JDBC Mahout  

Pegasus  

Lucene  

SolR  Hive    Add-­‐In  

ZooK

eepe

r  Oozie  

Hue  

Orc

hest

ratio

n, A

dmin

istr

atio

n,

Mon

itorin

g, S

ecur

ity

Cluster : CPU / RAM / Disk / Network Fuse   File  System  

OS + JVM

Transac:ons  

Distribution Hadoop

Principal élément de différenciation entre les distributions

Page 26: OWF12/BIG DATA Presentation big data owf ysance

Architectures Big Data

Page 27: OWF12/BIG DATA Presentation big data owf ysance

En complément ou en remplacement du SID traditionnel ?

Le Big Data en complément de la BI traditionnelle

Le Big Data en remplacement de la BI traditionnelle

Page 28: OWF12/BIG DATA Presentation big data owf ysance

Comment résoudre cette équation ? Serveurs Web Base

opérationnelle Serveurs

applicatifs Serveurs Web

Analytics

Données opérationnelles

Logs Transactionnels

Clics Streaming

Email / Marketing automation

Web Analytics

Emailing tracking

CRM / MDM

Historiques /Données

référentielles

DWH  

Applica:ons  décisionnelles  

Mobile / Média sociaux

Géoloc / feeds

Page 29: OWF12/BIG DATA Presentation big data owf ysance

Architecture de type Big Data

Text files Archives J-N

Stockage réseau haute disponibilité

API

Traitements massivement parallèles

BI traditionnelle Données agrégées

BI « Big Data » Données brutes

Usages « temps réel »

Sources de données

Search / Indexation

Page 30: OWF12/BIG DATA Presentation big data owf ysance

Cas client : Dans le monde du jeu

Page 31: OWF12/BIG DATA Presentation big data owf ysance

L’existant

31

Job Talend

Input Logs

Base Pivot MySQL

Game Server Game Server Game Server

Page 32: OWF12/BIG DATA Presentation big data owf ysance

Problématique

•  Problème de montée en charge avec la volumétrie effective ! L’augmentation des volumes de données sources dépasse les prévisions ! Ces volumes engendrent des problèmes bloquants de performance sur

les calculs d’agrégation des indicateurs de type « patrimoine » ! Nécessité de désactiver des agrégations (18%) afin de retrouver des

performances acceptables ! Les optimisations « standard » ont été réalisées, mais elles ne

permettent pas de résoudre les problèmes (qui vont s’aggraver)

32

Page 33: OWF12/BIG DATA Presentation big data owf ysance

Basculer sur une architecture de rupture type « Big Data »

33

Page 34: OWF12/BIG DATA Presentation big data owf ysance

SGBD colonnes : Objectifs

•  S’appuyer sur un moteur de base de données taillé pour des grands volumes de données et des usages analytiques ! Le stockage des données en colonnes permet un très haut niveau de

compression des données et accélère les requêtes de type agrégation ! Les performances attendues devraient être très supérieures à celles de

MySQL

34

Job Talend Input Logs Pivot New SGBD

Page 35: OWF12/BIG DATA Presentation big data owf ysance

Sharding : Objectifs

•  Bâtir une plate-forme de type Scale Out ! Gérer la montée en charge consiste à ajouter de nouveau nœuds à la

plate-forme ! Chaque nœud est techniquement identique et autonome en données ! Le sharding permet d’augmenter la tolérance aux pannes ! Le sharding est indépendant de la base de données

35

Job Talend Sharding

Pivot #1 Job Talend Traitement

Serv

er #

1

Input Logs

Pivot #n Job Talend Traitement

Serv

er #

n

Job Talend Consolidation Pivot Full

. . .

Page 36: OWF12/BIG DATA Presentation big data owf ysance

MapReduce : Objectifs

•  Apport de MapReduce : calculs parallélisés et distribués ! Changer l’approche et la méthode de calcul des agrégats complexes ! Linéariser la montée en charge ! S’appuyer sur le parallélisme et la distribution via AWS

36

Job Talend Sharding

Pivot Job Talend agreg. simples Input Logs

Serv

er M

R

Job Talend Update

Job MapReduce agreg. complexes

Page 37: OWF12/BIG DATA Presentation big data owf ysance

Combination des techniques

37

Job Talend Sharding

Pivot #1 Job Talend Traitement

Serv

er #

1

Input Logs

Pivot #n Job Talend Traitement

Serv

er #

n

Job Talend Consolidation Pivot Full

. . .

Serv

er M

R

Job MapReduce agreg. complexes

Page 38: OWF12/BIG DATA Presentation big data owf ysance

Merci