Data Lake Architektur: Von den Anforderungen zur Technologie

Prof. Dr. Jens Albrechtjens.albrecht@th-nuernberg.de

Data Lake ArchitekturVon den Anforderungen zur Technologie

Prof. Dr. Jens Albrecht Big Data 6

www.pixabay.com

Data Lake verstehen

Appliance

Systemarchitektur im Wandel

Gestern und heute

Strukturierte Daten

Moderate Größe (S-XL)

"General Purpose"

Heute und morgen

Polystrukturierte Daten

in allen Größen (S-XXXL) {json}

<xml/>

InMemory

RDBMSHadoop

Streaming

Zweckoptimierte

Spezialisten

Business Cases

Requirements of Big Data Technologies

Agility

Data Exploration

Schema-on-Read

Integration

on Demand

Efficient

Development

DataVirtualization

Real-timeDecisions

SimplifiedData Access

AdvancedAnalytics

Cost Efficiency

Scalability

Throughput

(Velocity)

Computing

Data Volume

StorageLayer

IngestionLayer

Serving Layer

Referenzarchitektur für BI

End-UserLayer

Data Sources

Reporting OLAP

OLTP Systems

In-Memory

RDBMSData Marts

Staging Area

Enterprise

StorageLayer

IngestionLayer

Serving Layer

Referenzarchitektur für BI und Big Data

End-UserLayer

Data Sources

Reporting OLAPOperational

Analytics

Discovery

Data LakeHadoop, NoSQL

Prediction

OLTP Systems

In-Memory

RDBMSData Marts

Staging Area

Enterprise

Search

Enterprise Data Lake / Hub / Reservoir

Internal

Applications

External

Data Sources0

Comprehensive

Data Pool

Business Analytics

Collect data as it is generated, process data when it is needed.

Wozu ein Data Lake?

� Daten in Originalformat gespeichert

� Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read)

� Alle Daten werden gespeichert

� Einfache Adaption von Änderungen

� Agile Einbindung neuer Daten

� Einfacher Zugriff für alle Benutzer

Anforderungsmuster verstehen

Flink Storm

Apex …Real-Time/Stream

Kafka Spark

Fixing the Requirements: Ingestion

eData Types

(Variety)

Frequency (Velocity)

Latency (Batch or Stream)

Volume

Quality (Veracity)

Consistent Timeline

CDCPush/Pull

Sqoop Spark

Lambda und Kappa Architektur

Streaming Data

Speed LayerKafka, Storm

Batch LayerHadoop, Spark

Serving LayerLambda

Streaming DataMessage Buffer

and BrokerKafka

Stream

ProcessorFlink, Spark

Serving Layer

Speed Table

Batch Table

Fixing the Requirements: Storage & Process

Query Patterns

Update Patterns

SQL Support

Data Linkage

Schema Evolution

Historical Queries (as-is vs. as-was)

Security

Retention Policy

Accumulo

HBase Cassandra

Neo4j …

In-Memory

SMP MPP

Source

Kudu …

Relational

Parquet

Flat Files JSON

Avro …

HDFS+ Hive/Spark

Cloud?

Apache Spark – Swiss Army Knife of Big Data

☛ Agilität und Skalierbarkeit mit und ohne Hadoop▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)

▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung

▸ Einheitliches System für Batch- und Stream-Processing

Batch Processing

Machine Learning

JavaPython

Scala R

Data Streaming

Graph Processing

Apache Spark

Fixing the Requirements: Curation & Governance

Quality

Policies & Standards

Security & Privacy

Lifecycle Management

Lineage

Metadata Management

Data Tagging

Data Lake

Landing

ZoneRaw Zone

Discovery

Sandbox

Curated

curity

Sensitive

Waterline

Cloudera

Navigator

Sentry

Ranger

Anwendungsfälle

Data LakeHadoop, NoSQL

EnterpriseDWH

Advanced Analytics

Self-Service Data Discovery

Stream Processing

ETL Migration

Data Offloading

Virtual Data Hub

Datasource API

SQL, R, ML, StreamingHive, Drill,

Impala

Risiken verstehen

Risiken

Wer billig kauft, kauft zweimal

CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)

Risiken

Falsches Werkzeug für die Aufgabe

www.pixabay.com

Risiken

Unterschätzung der technologischen

Komplexität

www.pixabay.com

Risiken

Unterschätzung des Personalbedarfs und

-aufwands

www.pixabay.com

Risiken

Mangelnde Automatisierung

und Wieder-verwendbarkeit

www.pixabay.com

Risiken

Abhängigkeit von der IT

www.pixabay.com

1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen

2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl

3. Komplexität kontrollieren

4. Gesundes Maß für Data Governance und Security finden

5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts

Vielen DankJens.Albrecht@th-nuernberg.de

Data Lake Architektur: Von den Anforderungen zur Technologie

Data & Analytics

Eine neue Konferenz, die Wege und Benchmarks zu digitalen ... · Implementierung einer Unified Data Architektur, die alle diese Anforderungen erfüllt! Bild. Session 6 Data Analytics

Anforderungen An ein Service LifecycLe MAnAgeMent...8 anFOrderungen an ein service LiFecycLe ManageMent anFOrderungen an ein service LiFecycLe ManageMent 9 Hierunter fallen vor allem

FAKULTÄT FÜR ARCHITEKTUR - Architektur - Startseite

An Architektur

Produktionsstrategien im Zeichen der Digitalisierung...‒Damit kann Industrie 4.0 -Technologie systematisch eingeordnet und weiterentwickelt werden ‒Anforderungen der Anwenderbranchen

AWB Fassade Und Architektur

05 Architektur Payment Engine Eng

Fl ow Flex On Wings Andreas Marochow. 3 Schichten Architektur Server AC-Technologie oder Flow-Server webbasierter Client durch Flex/Flash browserunabhängig

Design Chain - LeiterplattenAkademie · 2016. 5. 23. · AK Design Chain 27.04.2016 – Folie 4 Anforderungen an das Design von Metallschablonen (…für die SMD-Technologie). Treibende

Anforderungen integrieren - gi

DIAGRAMMATIK DER ARCHITEKTUR

Architektur in deutschland

Technik und Architektur

Modern architect hascher & jehle architektur

Technische Universität Berlin Glossar / Glossary · Architektur Architecture Audiokommunikation und -technologie Audio Communication and Technology Bauingenieurwesen Civil Engineering

in der Post-PC Ära und mobilen Arbeitswelten · 2013-06-14 · Wie die Reise weiter geht, was kommt morgen? Wolfgang gladbach, Leiter IT Technologie + Architektur, Evonik Industries

Softwaretechnik -- Nicht funktionale Anforderungen€¦ · Softwaretechnik – Nicht funktionale Anforderungen Allgemeines Zu nicht funktionalen Anforderungen I wichtig: k¨onnen

Architektur Kata - Workshop Solutions

Hingucker - Architektur im Fokus

Architektur Portfolio Sylvia Kligge