14
KIT University of the State of Baden-Wuerttemberg and National Research Center of the Helmholtz Association Smart Data Innovation Lab www.kit.edu SDI-X 13.10.2016 Best Practices für Smart Data Projekte Dr.-Ing. Markus Scholz, Data Scientist SDSC-BW/SDIL KIT, TECO, Prof. Beigl, [email protected]

SDIC'16 - Best Practices für Smart Data Projekte

Embed Size (px)

Citation preview

KIT – University of the State of Baden-Wuerttemberg and

National Research Center of the Helmholtz Association

Smart Data Innovation Lab

www.kit.edu

SDI-X

13.10.2016

Best Practices für Smart Data Projekte

Dr.-Ing. Markus Scholz, Data Scientist SDSC-BW/SDIL

KIT, TECO, Prof. Beigl, [email protected]

2 SDI-X

Motivation: Exponentiell wachsendes Datenvolumen soll zeitnah verarbeitet werden

Ziel: Unterstützung datengetriebener Innovation in Forschung und Anwendung durch geeignete

Best Practice-Prozesse

Best Practice-Werkzeuge

Best Practice-Betriebskonzepte

Smart Data Innovation Lab (SDIL)

Überblick (SDI-X)

3 SDI-X

Effizient durchführbar

Erzeugt belastbare Ergebnisse

Ist nachvollziehbar / wartbar

Ist reproduzierbar

Smart Data Innovation Lab (SDIL)

Best Practice-Prozesse I: Anforderungen an SD Analyse

Ähnliche Anforderungen wie an Softwareentwicklung Anfang der 90iger

4 SDI-X

Modelle für den Analyseprozess (z.B. CRISP-DM)

Technische Handlungsempfehlungen auf Basis von

Datencharakteristiken (z.B. Dimension vs. Datensätze)

Technischen Fragestellungen (z.B. Anomaliedetektion)

Tools für technische Aspekte der Analyse

Integration

Vorverarbeitung, Algorithmen, Online/Offline-Evaluation

Dokumentation

Versionierung

Smart Data Innovation Lab (SDIL)

Best Practice-Prozesse II: Werkzeuge für die Analyse

5 SDI-XSmart Data Innovation Lab (SDIL)

Beispiel Prozess: CRISP-DM Datenanalyseprozess

Allgemeine Vorgehensweise ohne spezifische Handlungsempfehlung

(z.B. Was bedeutet „Data Preparation“ für eine bestimmte Fragestellung?)

6 SDI-XSmart Data Innovation Lab (SDIL)

Beispiel techn. Best Practices: Azure Cheatsheet

Domain-unabhängige, Datencharakteristik-bezogene techn. Empfehlungen

7 SDI-X

Business Understanding

Data Understanding

... Evaluation

Smart Data Innovation Lab (SDIL)

Mehrschichtige Sicht auf die Smart Data Analyse

Technische Empfehlungen

Analyseprozessmodell (CRISP-DM)

Analyse-Entwurfsmuster für spezifische Problemstellung/Domäne

Software Tools,

AnalysewerkzeugeSAP

HANA

IBM

Watson

SAG

Terracotta

Python, R,

etc.

Cheatsheets

Tutorials

Courses

8 SDI-X

Business Understanding

Data Understanding

... Evaluation

Smart Data Innovation Lab (SDIL)

Mehrschichtige Sicht auf die Smart Data Analyse

SDI-X

Technische Empfehlungen

Analyseprozessmodell (CRISP-DM)

Analyse-Entwurfsmuster gg. spezifische Problemstellung/Domäne

Software Tools,

AnalysewerkzeugeSAP

HANA

IBM

Watson

SAG

Terracotta

Python, R,

etc.

Cheatsheets

Tutorials

Courses

9 SDI-X

Analyse durchgeführter und laufender Projekte durchFragebögen an Datenanalysten

Konsolidierung der Datenanalysebögen

Extraktion und Kategorisierung der Analysen

Entwicklung Analyse-Entwurfsmuster in Code und Dokumentation

Analyse-Entwurfsmuster: Mehrschichtige und verzweigte Abbildungen des Analyseprozesses enthalten z.T. auch technische Handlungsempfehlungen

Smart Data Innovation Lab (SDIL)

Ansatz von SDI-X I

10 SDI-XSmart Data Innovation Lab (SDIL)

Ansatz von SDI-X II

11 SDI-X

Identifikation wichtiger Einflüsse auf eine Zielvariable (Einflüsse)

Anwendung

Beeinflussende Merkmale identifizieren

Z.B. Merkmale die bei einer Auftragsverzögerung relevant sind

Extraktion von Regeln für die Zielgröße (Regeln)

Anwendung

Wie ist der Einfluss der Merkmale auf die Zielgröße (Verständnis)

Vorhersage einer Zielgröße

Z.B. Wie wahrscheinlich ist die Kündigung eines Abos

Intrinsische Datenstruktur ableiten (Struktur)

Anwendung

Unbekannte Zusammenhänge entdecken

Z.B. Identifikation von Kundengruppen

Ableitung von Prozessen (Prozesse)

Z.B. Wie exakt werden Prozesse im Unternehmen umgesetzt

Smart Data Innovation Lab (SDIL)

Kategorisierung typ. Zielstellungen

12 SDI-X

Best Practice-Process setzt sich zusammen aus nachvollziehbaren Einzelentscheidungen mit vordefinierten Berechnungschritten

Smart Data Innovation Lab (SDIL)

SDI-X Best-Practice Prozess – Work in Progress

EinflüsseZielstellung Regeln Struktur Prozesse

Anforderungen

(aus Anwendung)

Verarbeitungskette

(Vorverarbeitung,

Algorithmen,

Evaluation

+ tech.Empfehlungen)

Hohe Genauigkeit

Gute Interpretierbarkeit

Onlineverfahren

Methode 1

Methode 2

Methode 3

Hohe Robustheit

13 SDI-X

SDI-X: Best-Practices für Smart Data Prozesse, Tools, Betrieb

Heutige Smart Data Analyse hat ähnliche Herausforderung wie frühe SW-Entwicklung

Z.B. dadurch dass Werkzeuge sehr allgemein gehalten sind

Potential in Zielstellung-bezogenen Best-Practices(„Smart Data Analyse Entwurfsmuster“)

Umsetzung von Anforderungen an die Smart Data Analyse

Schnellerer Transfer von Analyse-Knowhow

Neue USP für existierende Analysesoftware

Data Scientist wird effizienter aber nicht ersetzt

Smart Data Innovation Lab (SDIL)

Zusammenfassung und Schlussfolgerung

14 SDI-X

DANKE FÜR IHRE AUFMERKSAMKEIT

Dr.-Ing. Markus Scholz

TECO/KIT

Vincenz-Priessnitz-Str.1

76137 Karlsruhe

0721-608-41713

[email protected] / [email protected]

Smart Data Innovation Lab (SDIL)