24
Hadoop Einführung Dev Friday Frankfurt

Hadoop Einführung @codecentric

Embed Size (px)

Citation preview

Page 1: Hadoop Einführung @codecentric

Hadoop EinführungDev Friday

Frankfurt

Page 2: Hadoop Einführung @codecentric
Page 3: Hadoop Einführung @codecentric

Every 2 Days We Create As Much Information As We Did Up To 2003

Eric Schmidt

Page 6: Hadoop Einführung @codecentric

Einführung Hadoop Ausblick

Page 7: Hadoop Einführung @codecentric

Einführung

Page 8: Hadoop Einführung @codecentric

Big Data3V

Volume

Data in Rest

Velocity

Data in Motion

Variety

Data in Many Forms

Page 9: Hadoop Einführung @codecentric

Scale up vs. Scale outmany “small” nodesBig single node system

Advantages

Problems

• Transparent for database system • Management complexity constant

• Expensive hardware • Limited scalability

Advantages

Problems

• Less expensive hardware • High scalability

• Load balancing necessary • Distributed lock and replication

protocols • Increased management complexity • Data distribution necessary • Increased error rate

Page 10: Hadoop Einführung @codecentric

Key-Value-Datenbanken Dokumentenorientierte Datenbanken

Spaltenorientierte Datenbanken Graph Datenbanken

Page 11: Hadoop Einführung @codecentric

Hadoop

Page 12: Hadoop Einführung @codecentric

Sqoop

Oozie

Flume

Hadoop Pig

HBase

Mahout

Drill

LuceneHive

SparkAmbari

HDFS

HCatalog

Kafka

Yarn

MapR

Zookeeper

Cassandra

Spark

Page 13: Hadoop Einführung @codecentric

CO

MPU

TE,

SEAR

CH

ANAL

YTIC

S,

MAC

HIN

E L.

PERS

IST

MO

NIT

OR,

AD

MIN

ISTE

RD

ESC

RIBE

, D

EVEL

OP

ING

EST,

PR

OPA

GAT

E

Mahout Drill

OozieAmbari

FlumeKafka Sqoop

Pig

HBase

Hive

HDFS MapR

HCatalog

Lucene

Zookeeper

Cassandra

Spark

Page 14: Hadoop Einführung @codecentric

Name Node Secondary Name Node

Data Node Data Node ….. Data Node

Periodic check point

Master

Slave

HDFS

Page 15: Hadoop Einführung @codecentric

Name Node Secondary Name Node

Data Node Data Node ….. Data Node

Name Node verwaltet Verzeichnisse, Dateien im HDFS und Blöcke in den Data Nodes

Data Nodes enthalten die eigentlichen Dateien und sind zuständig die Auslieferung der Dateien für die Anfragen.

Master

Slave

Second. NN überprüft periodisch den NN und logt die checkpoints um den NN bei Absturz neuzustarten.

HDFS

Page 16: Hadoop Einführung @codecentric

Job Tracker

Task Tracker Task Tracker ….. Task Tracker

Master

Slave

Map Reduce

Page 17: Hadoop Einführung @codecentric

Job Tracker

Task Tracker Task Tracker ….. Task Tracker

Master

Slave

Job Tracker verwaltet die Jobs und Ressourcen im Cluster

Task Tracker eigentliche Ausführung von MapReduce-Jobs zuständig.

Map Reduce

Page 18: Hadoop Einführung @codecentric

http://2.bp.blogspot.com/-o6GdA8CBDv0/T-g_H8Dso6I/AAAAAAAAAY4/B21YgDYvxM8/s1600/MR.png

Map Reduce

Page 19: Hadoop Einführung @codecentric

Demo

Page 20: Hadoop Einführung @codecentric

Ausblick

Page 21: Hadoop Einführung @codecentric

http://de.hortonworks.com/products/hortonworks-sandbox/#install

Ersten Schritte…Download Hortonworks Sandbox

5GB

Page 22: Hadoop Einführung @codecentric
Page 23: Hadoop Einführung @codecentric
Page 24: Hadoop Einführung @codecentric

DankeAkhlaq Malik