17
AnchorMen DUTCH DATACENTER AND HOSTING SUMMIT2012 – A’DAM PRAKTIJK CASE TWITTER – CLOUDERA HADOOP RUTGER WETZELS EN JARCO SCHUTRUP

Dutch Datacenter and Hosting Summit 2012 – A’dam

Embed Size (px)

DESCRIPTION

Presentatie van AnchorMen op het Dutch Datacenter & Hosting Summit 2012 – A’dam. In deze presentatie wordt ingegaan op een gerealiseerde Cloudera Hadoop - Twitter Big Dataoplossing. AnchorMen licht toe uit welke componenten een Big Data oplossing bestaat, daarnaast wordt aangeven op welke wijze dit geïntegreerd kan worden in organisaties gebruikmakend van AnchorMen ANANSI. Via ANANSI wordt Big Data gekoppeld aan bestaande processen en informatiesystemen waardoor organisaties klantgerichter kunnen ondernemen. Big Data draagt bij aan een optimale afstemming tussen klanttevredenheid en klantrendement.

Citation preview

Page 1: Dutch Datacenter and Hosting Summit 2012 – A’dam

AnchorMen DUTCH DATACENTER AND HOSTING SUMMIT 2012 – A’DAM

PRAKTIJK CASE TWIT TER – CLOUDERA HADOOP

RUTGER WETZELS EN JARCO SCHUTRUP

Page 2: Dutch Datacenter and Hosting Summit 2012 – A’dam

Business Web Apps◦ Producten en maatwerk

◦ Technisch gedreven JAVA

◦ Koppelpartner CRM, ERP

◦ Consultancy, development en beheer

Business Flow oplossingen◦ Online beheren en bestellen van producten of diensten

◦ Kennis en informatie over bedrijven of personen

◦ Ondersteuning CRM Strategie om klantgericht te ondernemen

AnchorMen

Page 3: Dutch Datacenter and Hosting Summit 2012 – A’dam

Technische klantvragen Grote data sets;

◦ Miljoenen artikelen doorzoekbaar maken

◦ Petabytes aan data met veel toename

Variëteit en complex◦ Ongestructureerd, Social Media

◦ Analyse over verschillende structuren

Behoefte aan realtime ◦ Inspelen op actuele data

◦ Snelle verwerking/ analyse van de data

Page 4: Dutch Datacenter and Hosting Summit 2012 – A’dam

Organisatorische klantvragenBig Data in mijn organisatie?

◦ Best practices of exploratie?

◦ IT of Business?

◦ Wat is het doel?

◦ Nieuwe behoeften of bestaande problemen?

◦ Wanneer starten?

◦ Wat kan Big Data toevoegen aan CRM strategie?

◦ Hoe integreert Big Data in de processen?

◦ Hoe kan ik starten met Big Data?

Page 5: Dutch Datacenter and Hosting Summit 2012 – A’dam

ANCHORMEN ANANSI

Page 6: Dutch Datacenter and Hosting Summit 2012 – A’dam

Praktijk case: Twitter –Cloudera HadoopSocial Media integratie voor Big Data opslag en analyse

◦ Externe data◦ Twitter

◦ Facebook

◦ LinkedIn

◦ Interne data◦ CRM

◦ Campagne Management Tool

Toepasbaar maken van Big Data

Certificering van Cloudera Hadoop

Page 7: Dutch Datacenter and Hosting Summit 2012 – A’dam

ArchitectuurSociale media

◦ Twitter◦ 300 miljoen tweets per dag

Tweets◦ Opslaan

◦ Lange periode

◦ Relateren

◦ Analyseren◦ Periodiek

◦ Verschillende soorten informatie

◦ Resultaten◦ Lichtgewicht

Platform◦ Hadoop

Dashboard◦ MySQL

◦ Visualisatie

Twitter

Hadoop

MySQL

Flume

MapReduce

Sqoop

Dashboard

Page 8: Dutch Datacenter and Hosting Summit 2012 – A’dam

HadoopInput: Twitter APIStreaming API

"text": "#Twitterbird, Guidelines:",

"retweet_count": 66,

"in_reply_to_status_id_str": null,

“id": 210462857140252672,

"geo": null,

"retweeted": true,

"possibly_sensitive": false,

"in_reply_to_user_id": null,

> 50 eigenschappen

1…miljoenen tweets

Twitter API

MySQL

Flume

MapReduce

Sqoop

Dashboard

Page 9: Dutch Datacenter and Hosting Summit 2012 – A’dam

HadoopInput: FlumeService voor verzamelen en verplaatsen van gegevens

Schrijft de tweets naar het Hadoop File System (HDFS)

Twitter API

MySQL

Flume

MapReduce

Sqoop

Dashboard

Dataset verspreid over de nodes

Node NNode 2Node 1

Page 10: Dutch Datacenter and Hosting Summit 2012 – A’dam

HadoopAnalyseren: MapReduce

Batchverwerking

Eenvoudig

Twitter API

MySQL

Flume

MapReduce

Sqoop

Dashboard

Map 2Map n..

Start

Reduce

Eind

Map 1

Page 11: Dutch Datacenter and Hosting Summit 2012 – A’dam

HadoopOutput: SqoopSqoop

◦ Verplaats informatie van Hadoop naar een RDBMS en vice versa

Twitter API

MySQL

Flume

MapReduce

Sqoop

Dashboard

Page 12: Dutch Datacenter and Hosting Summit 2012 – A’dam

HadoopAnalyse: WorkflowOozie

◦ Workflow scheduler◦ Manage Hadoop jobs

◦ Triggert MapReduce jobs en Sqoop jobs

Twitter API

MySQL

Flume

MapReduce

Sqoop

Dashboard

Page 13: Dutch Datacenter and Hosting Summit 2012 – A’dam

Twitter API

MySQL

Flume

MapReduce

Sqoop

Dashboard

Webinterface

Productpopulariteit per product per dag

Retweets, Mediaurls, Afbeeldingen

Page 14: Dutch Datacenter and Hosting Summit 2012 – A’dam

Cloudera HadoopRelatief eenvoudig op te zetten

Enterprise ready

Cloudera manager

Componenten◦ Flume

◦ Service voor verzamelen en verplaatsen van gegevens

◦ Impala◦ Query Engine

◦ MapReduce ◦ Framework voor het processen van data

◦ Oozie◦ Workflow Scheduler

◦ Hive◦ Query Engine

◦ Sqoop◦ Verplaats informatie van Hadoop naar een RDBMS en Vice versa

Page 15: Dutch Datacenter and Hosting Summit 2012 – A’dam

PlatformSchaalbaar

Beheersbaar

Cloud1 Cloud server, virtual nodes

Cloud nodes, dedicated

storage

Gecertificeerd CDH4 cluster

Page 16: Dutch Datacenter and Hosting Summit 2012 – A’dam

Big Data projectBig Data = Big Project?!

Durf grote vragen te stellen

Denk groot én begin klein

Discovery Workshop◦ Big Data concept◦ Demo met echte Big Data toepassing en klant herkenbare data◦ Concrete stappen

Proof of Concept◦ Snel◦ Relatief goedkoop◦ Gezamenlijk inspanning◦ Concrete en herkenbare data

Klaar voor het echte werk!