42
@xebiconfr #xebiconfr Data Lake done right! Matthieu Blanc

XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

Embed Size (px)

Citation preview

Page 1: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Lake done

right!Matthieu

Blanc

Page 2: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 2

Data Lake?

Page 3: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

WHY?

Page 4: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Centralisation

4

Page 5: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Self Service

5

Page 6: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 6

Data lakes will only succeed if they become shared resources.

Page 7: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Challenge Ahead

7

Page 8: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 8

Complex Ecosystem

Page 9: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 9

Skill Gap

Page 10: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 10

A Data Lake need to be managed

Page 11: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

HISTORY

Page 12: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Siloed Data

12

Page 13: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Distributed File System

13

Page 14: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Technologies

14

Hadoop

AWS S3

Google Cloud Storage

Page 15: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 15

Page 16: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Warehouse

16

Page 17: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Lake

17

Page 18: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Mart

18

Page 19: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Lake

19

Page 20: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Swamp?

20

Page 21: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

HOW?

Page 22: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Landfill

22

Data Scientists in front of raw data in a “Data Lake”

Page 23: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Catalog

23

Page 24: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Metadata Repository

24

Datasets SearchV1 V2

API

Web UI

...

Metadata

Catalog

Page 25: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 25

SQL

Clean, trusted, prepared Data

Raw data

Page 26: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 26

Page 27: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Automate Data Provisioning

27

Raw data Master Data

CSV, JSON, XML, Logs ... Parquet, Avro, ORC

Page 28: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Organization

28

Page 29: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Zones

29

LandingZone

Master DataZone

Work Area

ConsumptionZoneData

Sources

Data Sources

Data Sinks

Change Data Capture Zone

Page 30: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Quality Control

30

Page 31: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Governance

31

Raw data Master Data

CSV, JSON, XML, Logs ... Parquet, Avro, ORC

Validation criteria

Web UI

Operational/statistical metadata

Page 32: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Security?

32

Page 33: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Data Zones

33

LandingZone

Clean DataZone

Work Area

ConsumptionZoneData

Sources

Data Sources

Data Sinks

Page 34: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

LandingZone

Enforce security rule during data transformation

34

Clean DataZone

Sensitive Data

Work Area

ConsumptionZoneData

Sources

Data Sources

Data Sinks

Page 35: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Enforce security rule during data transformation

35

Raw data Master Data

CSV, JSON, XML, Logs ... Parquet, Avro, ORC

Data privacy metadata

Web UI

sensitive data encrypted

some data marked as sensitive

Page 36: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Avoid Data Swamp

Catalog your data

Automate Data Provisioning

Create Governance Zones

Provide Data Discovery Tools

Page 37: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 37

Data Democratization

Page 38: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 38

Most Data Lakes initiatives will fail

Page 39: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

XData

39

Page 40: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr

Thankyou!Matthieu Blanc

Page 41: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia

@xebiconfr #xebiconfr 41

Mainframe RDBMS NoSQL DBs Logs DWH Queues

HR Financial CRM Web BI Social Media

Page 42: XebiCon'16 : Data Lake Done Right ! Par Matthieu Blanc, Data Architect chez Xebia