Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
Big Data: au delà du Buzz
Yves de Montcheuil@ydemontcheuil
© Talend 2012 2
Il y a tellement de “hype” autour du big data que Gartner étudie
un nouveau modèle ;-)
© Talend 2012 3
Hype Cycle Gartner
© Talend 2012 4
Big Data en Route vers le Pic
“Big Data”
© Talend 2012 5
jeff kelly
© Talend 2012 6
Hadoop World - 2011
40%“Big data”
Combien d’entre vous utilisent les big data?
© Talend 2012 7
Hadoop World - 2011
20%“Gouvernement”
Combien d’entre vous utilisent les big data, et ne travaillent pas pour Yahoo, Google, Facebook?
© Talend 2012 8
Hadoop World - 2011
Combien d’entre vous utilisent les big data, et ne travaillent pas pour Yahoo, Google, Facebook ou le Gouvernment?
“Startup”
© Talend 2012 9
Cette année @hadoopsummit 2012
80%Beaucoup de POCs
Les choses deviennent sérieuses
© Talend 2012 10
Business
� Obtenir un avantage concurrentiel grâce à une meilleure analyse
� Opportunité de créer de nouveaux business models
Technique
� Les données collectées et stockées continuent à s’accroitre exponentiellement et dans de nombreux formats
� Les solutions traditionnelles doivent répondre à de nouveaux besoins, comme par exemple les données non structurées
Finance
� Le coût des systèmes de gestion des données continue d’augmenter
� Avantage du commodity hardware & du logiciel open source
Société
� Initiatives Open Data par les gouvernements
� L’accès à l’information comme droit fondamental?
Qu’est ce qui conduit ce changement?
© Talend 2012 11
La directrice marketing d’une chaine de supermarchés aux US La directrice marketing d’une chaine de supermarchés aux US ne comprenait pas les rapports qu’elle recevait. Un concurrent gagnait régulièrement des parts de marché sur plusieurs segments très profitables Malgré des campagnes de contre-attaque avec des promotions en ligne et en magasin, sa société perdait du terrain.
Quand elle a réunit une équipe de travail pour creuser dans l’approche de son concurrent, ils se sont aperçus que le problème était plus profond qu’il n’y semblait...
Lu dans Harvard Business Review
© Talend 2012 12
Source: McKinsey
Si le secteur de la santé aux US utilisait les big data de façons
créative pour améliorer l’efficacité et la qualité, le
secteur pourrait créer plus de $300 millards de dollars de
valeur par an.Source: McKinsey
© Talend 2012 13
Big Data comme avantage concurrentiel
© Talend 2012 14
Il y a des pionniers dans le secteur
Cas d’utilisation• Moteur de recommandation• Analyse de sentiment• Modélisation de risque• Détection de fraude• Analyse de campagne• Analyse de churn• Analyse de graphes sociaux• Monitoring réseau• Recherche et développement
© Talend 2012 15
800% de croissance des volumes de données
dans les 5 prochaines années
Source: Gartner
© Talend 2012 16
40 milliards de photos
© Talend 2012 17
Sensors/RFID/Devices
Sentiment
Mobile Web
User Clicks
User Generated Content
Social Interactions & Feeds
Spatial & GPS coordinates
External Demographics
Business Data Feeds
Video, Audio, Images
SMS/MMS
Big Data
Web logs
Offer history A/B testing
Dynamic pricing
Affiliate Networks
Search Marketing
Behavioral Targeting
Dynamic Funnels
Web
Segmentation
Offer details
Customer Touchpoints
Support Contacts
CRM
Purchase detail
Purchase record
Payment record
ERP
D’où viennent ces données?
Source: Hortonworks
Variété et Complexité des Données
Mega, Giga, Tera, Peta
octets
© Talend 2012 18
Les données appelées “non structurées” représentent
80–90% de toutes les données medicales
Source: Ovum
© Talend 2012 19
En 2015, plus de la moitié des données du monde seront
traitées par Hadoop
Source: Hortonworks
© Talend 2012 20
Types de données non structurées
CustomerInteractions
SocialMedia
OperationalDocuments
News and Information
Call center recordings and logs
Customer surveys/feedback
Customer e-mails
Field service reports
Warranty claims
Sales call logs
Reviews/ratings on community websites
Internet message boards and forum posts
Twitter posts
Blog posts
Facebook entries
Regulatory requirementdocumentation
Meeting transcripts
Contracts and service level agreements
Financial analysis/reports
Documents,spreadsheets, and e-mail
RSS feeds
Competitive websites
Third-party information services
Source: Caserta
© Talend 2012 21
© Talend 2012 22
Que stockons nous de si important?
© Talend 2012 23
Soit deux fois la taille du data warehouse
En 2009, presque tous les secteurs de l’économie disposaient d’une moyenne de 200 To de données stockées par société de plus de 1000 employés.
Soit deux fois la taille du data warehouse de Wal-Mart en 1999.
Source: McKinsey
© Talend 2012 24
42,000 servers
Image: murphy & company
© Talend 2012 25
0.01% world’s electricity
Image: flickr @suneko
© Talend 2012 26
© Talend 2012 27
Les big data et la santé
Single-Nucleotide Polymorphism(SNP, prononcez snip)
Source: Cloudera
© Talend 2012 28
“Bowtie and Crossbow”
• “Analyser 35% du
génome human en 3
heures pour $85 avec
un cluster 40-node de
Amazon Web Services”
© Talend 2012 29
© Talend 2012 30
• Toutes les données ne sont pas équivalentes• D’où viennent-elles?
• Qui dit quoi?
• Niveau de confiance
• La quantité ne remplace pas la qualité
• Des jugements “éthiques” doivent être faits lors de l’utilisation d’informations “publiques”
• Tout le monde n’a pas le même accès aux bases de données donc le risque de créer une nouvelle fracture numérique est réél
Quelles données utiliser?
Source: Boyd & Crawford
© Talend 2012 31
Mais le plus gros frein est l’accès au talent….
“En 2018, rien qu’aux US il manquera 140000 à 190000 individus qualifiés”
© Talend 2012 32
Comment passer de ça…
© Talend 2012 33
A ça…
SEUL Talend génère du code, executé dans MapReduce. Cette approche ouverteélimine les limites d’un moteur propriétaire et fournit un jeu d’outils unifiépour le big data.
Pourquoi Talend…
© Talend 2012 34
1. Sachez “quoi ne pas regarder”
2. Evitez de penser que “la nouveauté va régler les problèmes”
3.N’oubliez pas que “un bon timing est mieux que la recherche de la perfection”
3 Recommandations
Source: Havard Business Review