45
Hamburg, June 2014 QUARTERLY TECHNOLOGY BRIEFING Moin!

Quarterly Technology Briefing - Big Data - Germany

Embed Size (px)

Citation preview

Page 1: Quarterly Technology Briefing - Big Data - Germany

H a m b u r g , J u n e 2 0 1 4

QUARTERLY TECHNOLOGY BRIEFING

Moin!

Page 2: Quarterly Technology Briefing - Big Data - Germany

2

Page 3: Quarterly Technology Briefing - Big Data - Germany

3

Page 4: Quarterly Technology Briefing - Big Data - Germany

4

Page 5: Quarterly Technology Briefing - Big Data - Germany

AGENDA

▫︎Was ist ‘Big Data’

▫︎ Preis Informationen im Einzelhandel

!

▫︎Agile Analytics

▫︎Data Engineer und Data Scientist

!

▫︎AutoTrader und BigQuery

!

▫︎ Social Backlash und Datensparsamkeit

5

Page 6: Quarterly Technology Briefing - Big Data - Germany

WAS IST ‘BIG DATA’

6

Page 7: Quarterly Technology Briefing - Big Data - Germany

VOLUME

Page 8: Quarterly Technology Briefing - Big Data - Germany

VELOCITY

Page 9: Quarterly Technology Briefing - Big Data - Germany

9

VARIABILITY

Page 10: Quarterly Technology Briefing - Big Data - Germany

10

VERACITY

Page 11: Quarterly Technology Briefing - Big Data - Germany

11

VALUE

Page 12: Quarterly Technology Briefing - Big Data - Germany

12

GRUPPO PAM

Page 13: Quarterly Technology Briefing - Big Data - Germany

THE CHALLENGE: PREISINFORMATIONSSYSTEM

!

!

▫︎ Datewarehouse auf TerraData Basis

!

▫︎ Business Requirements änderten sich - IT kam nicht mit

!

▫︎ ~50 analytische Vektoren

!

▫︎ 12 Stunden -> Realtime

13

Page 14: Quarterly Technology Briefing - Big Data - Germany

MICROSERVICES ON STEROIDS

14

…… …

2010 2011 2014

~150 Instanzen

1 Server

200.000.000 Zeilen / Instanz

Page 15: Quarterly Technology Briefing - Big Data - Germany

AGILE ANALYTICS

15

Page 16: Quarterly Technology Briefing - Big Data - Germany

AGILE ANALYTICS

16

analytics

technologies

agile deliverylean learning

`fast

results

Page 17: Quarterly Technology Briefing - Big Data - Germany

17

Value

Complexity

descriptive

diagnostic

predictive

prescriptive

Was ist passiert?

Warum ist es passiert?

Was wird geschehen?

Wie können wir es eintreten lassen?

Page 18: Quarterly Technology Briefing - Big Data - Germany

AGILE ANALYTICS IN ACTION

18

Page 19: Quarterly Technology Briefing - Big Data - Germany

19

Data Lab Operationalisierung

2 Wochen 2 Monate

!

!

Brainstorming

Datenanalyse ~1.000.000 Edges

Experimente / Spikes (Gephi)

Tests mit Mitarbeitern

Page 20: Quarterly Technology Briefing - Big Data - Germany

20

Netzwerk 1. Grades

Page 21: Quarterly Technology Briefing - Big Data - Germany

21

Netzwerk 2. Grades

Page 22: Quarterly Technology Briefing - Big Data - Germany

NEO4J

!

▫︎ “Natural fit” für Graphen basierte Queries

!

▫︎Basis Graph Algorithmen “on-board”

▫︎ Shortest Path, Centrality, Pattern Matching

!

▫︎ Java API mit guter Performance

▫︎Netzwerk einer Person (400 Nodes) in < 1 Sekunde

22

Page 23: Quarterly Technology Briefing - Big Data - Germany

23

Data Lab Operationalisierung

2 Wochen 2 Monate

!

!

Neo4j als Datastore

Batch Import (14 Jahre) aus MSSQL

- ~95.000.000 Edges

Dropwizard (REST, HealtChecks) - read only

A/B Testing via Email

Page 24: Quarterly Technology Briefing - Big Data - Germany

ROLLEN: WER MACHT WAS?

!

▫︎ Ergänzung zur klassischen IT

!

▫︎ Kernkompetenzen

24

data engineer

data scientist

Page 25: Quarterly Technology Briefing - Big Data - Germany

DATA ENGINEER

!

!

▫︎ Implementiert das analytische Modell in Produktion

!

▫︎ Schnittstelle zur Softwareentwicklung

!

▫︎ Expertise in SQL, NoSQL, Datenmodellierung, Infrastruktur (Hadoop...)

!

▫︎Unterstützt den “Data Scientist” bei Mining und Aufbereitung

25

Page 26: Quarterly Technology Briefing - Big Data - Germany

DATA SCIENCE

26

data engineering

scientific method math

domain expertise

data science statistics

hacker mindset visualization advanced

computing

Page 27: Quarterly Technology Briefing - Big Data - Germany

“SEXIEST JOB OF THE 21ST CENTURY”

Hat Annahmen und überprüft diese !

“Hacker-Mentalität” !

Hilft durch fundierte Informationen Entscheidungen zu treffen !

Validiert das Alleinstellungsmerkmal des Produktes !

Weiss wie man die richtigen Fragen stellt

27

Page 28: Quarterly Technology Briefing - Big Data - Germany

DATA SCIENTIST

Machine Learning Support Vector Machines

Decision Trees

Clustering, ...

Domain-Wissen Geschäftliches Detailwissen

Statistische Modellierung Bayes-Klassifikation

K-Nearest-Neighbour, ...

Programmierung R, Matlab, Python, ...

28

Page 29: Quarterly Technology Briefing - Big Data - Germany

BEISPIEL ANALYSE

Multiple-Choice

!

▫︎ 10 Fragen

▫︎ 4 mögliche Antworten

!

ergibt 40 dimensionalen Vektor

!

!

!

Welches Wissen im Datensatz?

29

Page 30: Quarterly Technology Briefing - Big Data - Germany

K-MODES CLUSTERING

!

▫︎ Für kategoriale Daten

▫︎ Ähnlich K-Means, modifiziert @ Bell Labs

!

!

!

!

!

Quelle: Weston Pace (Wikimedia Commons, cc-by-sa)

30

Page 31: Quarterly Technology Briefing - Big Data - Germany

K-MEANS VS K-MODES

!

!

▫︎ Vereinfachung der Vektorbildung/Euklidische Distanz

!

▫︎ Stattdessen: Abzählen der erfolgreichsten Antwort (“mode”)

!

▫︎ Einfache Distanz: Anzahl der Verschiedenen Antworten

31

Page 32: Quarterly Technology Briefing - Big Data - Germany

VEREINFACHUNG ALS VORTEIL

!

!

!

K-Modes erzwingt eine klarere Cluster-Bildung

!

!

Schlechte Performance bei schwacher Korrelation

32

Page 33: Quarterly Technology Briefing - Big Data - Germany

33

Page 34: Quarterly Technology Briefing - Big Data - Germany

GOOGLE BIG QUERY

!

!

▫︎Queries über Milliarden von Zeilen in Sekunden

!

▫︎Gut zum analysieren, aber nicht zum modifizieren

!

▫︎ Keine eigene Infrastruktur benötigt

!

▫︎ Einfaches Setup durch gutes Tooling: gsutil / bq

34

Page 35: Quarterly Technology Briefing - Big Data - Germany

AUTOTRADER UK / GOOGLE BIG QUERY

!

▫︎ 3 Entwickler / 5 Tage / 5 Jahre Datenbestand (~1.500.000.000 Zeilen)

!

▫︎Queries via BigQuery WebConsole, später API

!

▫︎Google App Engine Frontend mit Google Charts

35

Page 36: Quarterly Technology Briefing - Big Data - Germany

SOCIAL IMPACT

36

Page 37: Quarterly Technology Briefing - Big Data - Germany

ETHISCHE GESICHTSPUNKTE

!

!

!

▫︎Daten als neue Währung

!

▫︎ Technologischer Fortschritt im Konflikt mit gesellschaftlicher Norm

37

Page 38: Quarterly Technology Briefing - Big Data - Germany

ETHISCHE GESICHTSPUNKTE

“How Target Figured Out A Teen Girl Was Pregnant Before Her Father Did”

38

Page 39: Quarterly Technology Briefing - Big Data - Germany

INFORMATIONELLE SELBSTBESTIMMUNG

!

!

Rechtliche Anforderung, § 3a BSDG

!

Aktuelle Themen

NSA-Affäre

Datendiebstahl

!

Betrifft alle die private Daten speichern und verarbeiten

39

Page 40: Quarterly Technology Briefing - Big Data - Germany

DOE VERSUS NETFLIX

▫︎ $1.000.000 Wettbewerb um das Netflix Recommendation-System zu verbessern

!

▫︎ Veröffentlichung eines pseudonymisierter Datensets

!

▫︎ Kreuzkorrelation zu öffentlichen Bewertungen auf IMDB.com

!

▫︎ Ermöglichte Zuordnung zu bekannten Benutzerprofilen

40

Page 41: Quarterly Technology Briefing - Big Data - Germany

DATENSPARSAMKEIT

!

Datenerhebung nur soweit für die Erfüllung der Aufgabe nötig

41

Page 42: Quarterly Technology Briefing - Big Data - Germany

KONKRETE LÖSUNGEN

!

!

▫︎Unique visitors?

▫︎ Gehashte IP-Adressen

!

▫︎Geo-IP Zuordnung

▫︎ Auslassen des 4. Oktetts

!

!

!

Quelle: Martin Fowler “Datensparsamkeit”

42

Page 43: Quarterly Technology Briefing - Big Data - Germany

43

Page 44: Quarterly Technology Briefing - Big Data - Germany

thoughtworks.com/join

DANKE!

Page 45: Quarterly Technology Briefing - Big Data - Germany

CREDITS

Chris: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker_f.jpg

Clustering: http://www.wired.com/images_blogs/wiredscience/2014/01/ff_lovehacker2_large.jpg

Chris + Wife: http://i.huffpost.com/gen/1579914/thumbs/o-OKCUPID-LOVE-facebook.jpg

Kassenbon: http://www.kundenkunde.de/wp-content/uploads/2011/06/kassenbon_kaufland_gross.jpg

Data Science: http://upload.wikimedia.org/wikipedia/commons/4/44/DataScienceDisciplines.png

K-Means http://commons.wikimedia.org/wiki/File:K_Means_Example_Step_1.svg und folgende

45