HUG France - 20160114 industrialisation_process_big_data CanalPlus

Preview:

Citation preview

Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 1

HUG France – 14 Jan 2016

Industrialisation des processus Big Data chez

CANAL+

Pascal PERISSEAU, Technical Architect B.I & Big Data CANAL+@pperisseauStephen CLAIRVILLE, Big Data Project Manager CANAL+ @stefun_

2Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 2

Sommaire

• Pourquoi le BIG DATA chez CANAL+ ?

• Architecture et outils

• Intégration et industrialisation du SI Big Data au SI décisionnel

• Retours d’expériences

3Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 3

Pourquoi le Big Data chez CANAL+ ?

La collecte des données d’usages

4Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 4

Les raisons du changement

x3 STB collectés depuis 2010

4 M «devices»

≅ 200 M logs/jour

Une croissance importante des « devices » connectés

5Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 5

Les raisons du changement

Mise en oeuvre d’une solution permettant :• Accroître la capacité (tirer profit de l’historique de nos abonnés)

tout en abaissant le coût de stockage.• Réaliser des traitements complexes sur des volumes important de

données.• Pérenniser le DataWareHouse historique (Teradata) sur le

périmètre Legacy.

• Choix d’une solution distribuée sur Hadoop en 2013.

6Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 6

Architecture et outils

• 1 cluster dans une Appliance H3 Teradata (Hadoop/Aster)• +2 millions de dossiers et fichiers• 20 serveurs de développement et production (MN, DN, ED, LD)• ≅32K runs de jobs mensuels

196.29

53.5

Capacité en To

79%

21%

Statut HDFS

DisponibleUtilisé

7Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 7

Intégration et industrialisation du SI Big Data au SI décisionnel

Lignes directrices de l’industrialisation

• Exploitation et supervision des flux• Homogénéisation et simplification des développements • Maintenabilité et évolution des plateformes• Intégration aux normes et standards existants • Interconnexion avec les flux du système Legacy (Control-M)

8Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 8

Mise en œuvre

• Mise en place d’une météo de traitement et de suivi des runs des jobs

• Développement de patterns de développement en shell/hql…• Utilisation de fonctions et utilitaires génériques• Versionning des scripts en cas de rollbacks • Ordonnanceur commun à tous les flux

Intégration et industrialisation du SI Big Data au SI décisionnel

9Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 9

Architecture et outils

10Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 10

Architecture et outils

1 1

11Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 11

Architecture et Outils

Etat des lieux

Arborescences et structures des fichiers en production/data├── .snapshot├── controlm├── projet_hdp└── tmp/data/projet_hdp├── 000_utilitaires└── 110_ceu/data/projet_hdp/110_ceu├── 1101_ceu_ceu├── 1102_ceu_wtr├── 1107_ceu_erk├── 1108_ceu_ofl├──1109_ceu_usg└── …

4 Projets Majeurs

9 Sous-projets

155 shells de flux

200 fichiers .hql

12Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 12

Retours d’expériences

Dos & Don’ts• Intérêt de l’Open Source et des distributions • Warning sur la pérennité des outils• Limitation des outils par rapport aux «Top Level Projects  » et

« early-releases »• Compatibilité des outils les uns avec les autres• Analyse d’impacts sur les traitements et optimisations

13Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 13

Retours d’expériences

• En route vers le Dev-Ops Data Déploiement continu Livraison automatique des scripts

Les + Les -

Exploitation Niv.1 Expertise technique Niv.2/3

Uniformisation des dev. Diffusion et partage des normes aux équipes

Facilité de migrations

Copyright Groupe CANAL+ 2016 – CONFIDENTIEL 14

MerciQuestions ?