Data Lake Architektur: Von den Anforderungen zur Technologie

Preview:

Citation preview

Prof. Dr. Jens Albrechtjens.albrecht@th-nuernberg.de

Data Lake ArchitekturVon den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 6

www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 7

www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 8

>

Data Lake verstehen

Prof. Dr. Jens Albrecht Big Data 9

Appliance

Systemarchitektur im Wandel

Gestern und heute

Strukturierte Daten

Moderate Größe (S-XL)

"General Purpose"

RDBMS

Heute und morgen

Polystrukturierte Daten

in allen Größen (S-XXXL) {json}

<xml/>

InMemory

RDBMSHadoop

Streaming

NoSQL

Zweckoptimierte

Spezialisten

Prof. Dr. Jens Albrecht Big Data 10

Business Cases

Requirements of Big Data Technologies

Agility

Data Exploration

Schema-on-Read

Integration

on Demand

Efficient

Development

DataVirtualization

Real-timeDecisions

SimplifiedData Access

AdvancedAnalytics

Cost Efficiency

Scalability

Throughput

(Velocity)

Computing

Power

Data Volume

Prof. Dr. Jens Albrecht Big Data 11

StorageLayer

IngestionLayer

Serving Layer

Referenzarchitektur für BI

End-UserLayer

Data Sources

Reporting OLAP

OLTP Systems

In-Memory

RDBMSData Marts

Staging Area

Enterprise

DWH

Prof. Dr. Jens Albrecht Big Data 12

StorageLayer

IngestionLayer

Serving Layer

Referenzarchitektur für BI und Big Data

End-UserLayer

Data Sources

Reporting OLAPOperational

Analytics

Data

Discovery

Data LakeHadoop, NoSQL

Prediction

OLTP Systems

In-Memory

RDBMSData Marts

Staging Area

Enterprise

DWH

Search

Prof. Dr. Jens Albrecht Big Data 14

Enterprise Data Lake / Hub / Reservoir

Internal

Applications

External

Data Sources0

10

1

0

10

1

01

0

1

0 1

Comprehensive

Data Pool

Business Analytics

Tool

Collect data as it is generated, process data when it is needed.

Prof. Dr. Jens Albrecht Big Data 15

Wozu ein Data Lake?

� Daten in Originalformat gespeichert

� Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read)

� Alle Daten werden gespeichert

� Einfache Adaption von Änderungen

� Agile Einbindung neuer Daten

� Einfacher Zugriff für alle Benutzer

Prof. Dr. Jens Albrecht Big Data 16

>

Anforderungsmuster verstehen

Prof. Dr. Jens Albrecht Big Data 18

Nifi

Flink Storm

Samza

Apex …Real-Time/Stream

Kafka Spark

Fixing the Requirements: Ingestion

For

ea

ch D

ata

So

urc

eData Types

(Variety)

Frequency (Velocity)

Latency (Batch or Stream)

Volume

Quality (Veracity)

Consistent Timeline

CDCPush/Pull

Hive

Sqoop Spark

Batch

Beam

Prof. Dr. Jens Albrecht Big Data 19

Lambda und Kappa Architektur

Streaming Data

Speed LayerKafka, Storm

Batch LayerHadoop, Spark

Serving LayerLambda

Streaming DataMessage Buffer

and BrokerKafka

Stream

ProcessorFlink, Spark

Serving Layer

Kappa

Speed Table

Batch Table

Prof. Dr. Jens Albrecht Big Data 20

Fixing the Requirements: Storage & Process

Sto

rage

3V's

Query Patterns

Update Patterns

SQL Support

Data Linkage

Schema Evolution

Historical Queries (as-is vs. as-was)

Security

Retention Policy

Accumulo

HBase Cassandra

Mongo

Neo4j …

NoSQL

In-Memory

SMP MPP

Open

Source

Kudu …

Relational

Parquet

Flat Files JSON

ORC

Avro …

HDFS+ Hive/Spark

Cloud?

Prof. Dr. Jens Albrecht Big Data 21

Apache Spark – Swiss Army Knife of Big Data

☛ Agilität und Skalierbarkeit mit und ohne Hadoop▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)

▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung

▸ Einheitliches System für Batch- und Stream-Processing

Batch Processing

Machine Learning

JavaPython

Scala R

Data Streaming

Graph Processing

SQL

Apache Spark

Prof. Dr. Jens Albrecht Big Data 22

Fixing the Requirements: Curation & Governance

Cu

rati

on

Quality

Policies & Standards

Security & Privacy

Lifecycle Management

Lineage

Metadata Management

Data Tagging

Data Lake

Landing

ZoneRaw Zone

Discovery

Sandbox

Curated

Zone

Work

Zone

Da

ta I

nve

nto

ry

Se

curity

Sensitive

Zone

Waterline

Atlas

Cloudera

Navigator

Sentry

Ranger

Prof. Dr. Jens Albrecht Big Data 24

Anwendungsfälle

Data LakeHadoop, NoSQL

EnterpriseDWH

Use

Ca

ses

Advanced Analytics

Self-Service Data Discovery

Stream Processing

ETL Migration

Data Offloading

Virtual Data Hub

Kafka

Sqoop

Spark

Datasource API

SQL, R, ML, StreamingHive, Drill,

Impala

Prof. Dr. Jens Albrecht Big Data 25

>

Risiken verstehen

Prof. Dr. Jens Albrecht Big Data 26

Risiken

Wer billig kauft, kauft zweimal

CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)

Prof. Dr. Jens Albrecht Big Data 27

Risiken

Falsches Werkzeug für die Aufgabe

www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 28

Risiken

Unterschätzung der technologischen

Komplexität

www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 29

Risiken

Unterschätzung des Personalbedarfs und

-aufwands

www.pixabay.com

www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 30

Risiken

Mangelnde Automatisierung

und Wieder-verwendbarkeit

www.pixabay.com

www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 31

Risiken

Abhängigkeit von der IT

www.pixabay.com

www.pixabay.com

Prof. Dr. Jens Albrecht Big Data 32

>

Fazit

Prof. Dr. Jens Albrecht Big Data 33

Fazit

1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen

2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl

3. Komplexität kontrollieren

4. Gesundes Maß für Data Governance und Security finden

5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts

Prof. Dr. Jens Albrecht Big Data 34

>

Vielen DankJens.Albrecht@th-nuernberg.de

Recommended