Hadoop Einführung @codecentric

Hadoop EinführungDev Friday

Frankfurt

Every 2 Days We Create As Much Information As We Did Up To 2003

Eric Schmidt

Weltweit

MongoDBHadoopCassandra

Google Trends

http://www.google.de/trends/explore#q=%2Fm%2F0fdjtq%2C%20%2Fm%2F04f32m3%2C%20%2Fm%2F05z_r2n&cmpt=q&tz=

Deutschland

MongoDBHadoopCassandra

Google Trends

http://www.google.de/trends/explore#q=%2Fm%2F0fdjtq%2C%20%2Fm%2F04f32m3%2C%20%2Fm%2F05z_r2n&cmpt=q&tz=

Einführung Hadoop Ausblick

Einführung

Big Data3V

Volume

Data in Rest

Velocity

Data in Motion

Variety

Data in Many Forms

Scale up vs. Scale outmany “small” nodesBig single node system

Advantages

Problems

• Transparent for database system • Management complexity constant

• Expensive hardware • Limited scalability

Advantages

Problems

• Less expensive hardware • High scalability

• Load balancing necessary • Distributed lock and replication

protocols • Increased management complexity • Data distribution necessary • Increased error rate

Key-Value-Datenbanken Dokumentenorientierte Datenbanken

Spaltenorientierte Datenbanken Graph Datenbanken

Hadoop

Sqoop

Oozie

Flume

Hadoop Pig

HBase

Mahout

Drill

LuceneHive

SparkAmbari

HDFS

HCatalog

Kafka

Yarn

MapR

Zookeeper

Cassandra

Spark

CO

MPU

TE,

SEAR

CH

ANAL

YTIC

S,

MAC

HIN

E L.

PERS

IST

MO

NIT

OR,

AD

MIN

ISTE

RD

ESC

RIBE

, D

EVEL

OP

ING

EST,

PR

OPA

GAT

E

Mahout Drill

OozieAmbari

FlumeKafka Sqoop

Pig

HBase

Hive

HDFS MapR

HCatalog

Lucene

Zookeeper

Cassandra

Spark

Name Node Secondary Name Node

Data Node Data Node ….. Data Node

Periodic check point

Master

Slave

HDFS

Name Node Secondary Name Node

Data Node Data Node ….. Data Node

Name Node verwaltet Verzeichnisse, Dateien im HDFS und Blöcke in den Data Nodes

Data Nodes enthalten die eigentlichen Dateien und sind zuständig die Auslieferung der Dateien für die Anfragen.

Master

Slave

Second. NN überprüft periodisch den NN und logt die checkpoints um den NN bei Absturz neuzustarten.

HDFS

Job Tracker

Task Tracker Task Tracker ….. Task Tracker

Master

Slave

Map Reduce

Job Tracker

Task Tracker Task Tracker ….. Task Tracker

Master

Slave

Job Tracker verwaltet die Jobs und Ressourcen im Cluster

Task Tracker eigentliche Ausführung von MapReduce-Jobs zuständig.

Map Reduce

http://2.bp.blogspot.com/-o6GdA8CBDv0/T-g_H8Dso6I/AAAAAAAAAY4/B21YgDYvxM8/s1600/MR.png

Map Reduce

http://2.bp.blogspot.com/-o6GdA8CBDv0/T-g_H8Dso6I/AAAAAAAAAY4/B21YgDYvxM8/s1600/MR.png

Demo

Ausblick

http://de.hortonworks.com/products/hortonworks-sandbox/#install

Ersten Schritte…Download Hortonworks Sandbox

5GB

DankeAkhlaq Malik

Technology

Hadoop Einführung @codecentric