Data Science mit Python und R - inovex · Colin Shearer, Rüdiger Wirth (2000); CRISP-DM 1.0...

● Data Science mit Python und R

● ML Engineering, ML Deployment

● Big Data, Hadoop, Spark

mspitzer@inovex.de

@mspitzer243

› Identifikation und Extraktion relevanter

Features aus verschiedenen Quellen

› Explorative Analyse und Aufbereitung

› Definition eines experimentellen Setups

› Benchmark verschiedener Modelle

› ...Deployment?!

Creation of the model is generally not the end of the project. [...]

It often involves applying "live" models within an organization’s decision

making processes — for example, real-time personalization of Web pages

or repeated scoring of marketing databases.

Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer, Rüdiger Wirth (2000); CRISP-DM 1.0 Step-by-step data mining guides

Data Science Lab

Live System /“Production”

› Vorhersage von Produkt-

nachfrage auf Tagesbasis

› Bereitstellung in Datenbank

› Zugriff über Analysetools und

Dashboards

› Produktempfehlungen auf Basis

des Nutzerverhaltens

› Bereitstellung als Webservice

› Zugriff über REST API

TrainingDaten

ScoringDaten

Modell

Prognose Serving

› Generieren von Erkenntnissen aus

Daten zur Beantwortung einer Fragestellung

› Interaktive Exploration von statischen Daten

› Reports, Dashboards oder Modellprototyp zur

Unterstützung der Entscheidungsfindung

› Optimierung von Business-Metriken

durch den Einsatz von ML-Verfahren

› Dynamische Daten und Echtzeit-Feedback

› Entwicklung einer zuverlässigen und nachvollziehbaren

ML-Komponente als Bestandteil eines Datenproduktes

Data Science

● Experimentell

● Rapid Prototyping, Ad-Hoc Analysen

● Reports, Dashboards, Modelle

SW Engineering

● Systematisch

● Clean Code, Test-Driven Development, CI/CD

● Wartbare und funktionale Software

› Kurze Iterationen und adaptive Planung

› Aktiver Wissensaustausch in interdisziplinären Teams

› Früh liefern, kontinuierlich verbessern

› Durchführung explorativer Tasks als Spikes

› Discovery/Delivery-Teams (Dual-Track)

ProduktionEntwicklung

Training Modell

Vorbereitung

Scoring

Vorbereitung

Prognose

Training Modell

Vorbereitung

Scoring

Vorbereitung

Prognose

Format BeispielAbhängig-

keitenSprach-

unabhängigModell- support

serialisiertPickles, R

Object FilesJa Nein Hoch

generisch JSON, XML Nein Ja Niedrig

Container Docker Nein Ja Hoch

Training Modell

Vorbereitung

Scoring

Vorbereitung

Prognose

Training Modell

Vorbereitung

Scoring

Vorbereitung

Prognose

Training

PipelineVorbereitung

Scoring

Vorbereitung

Prognose

› Pipelines umfassen Modelle und Datentransformationen

› Gerichteter Graph aus Transformatoren und Schätzern

› Transformatoren verändern oder ergänzen Eingabedaten

› Schätzer konstruieren Transformatoren auf Basis von

Eingabedaten

Ersetzen von NULL Werten

One-Hot Encoding Normierung Lineare

Regression

Training

Ersetzen von NULL Werten

One-Hot Encoding Normierung Regressions-

modell

Schätzer

Transformator

Training

Scoring

Vorbereitung

Prognose

Training

Scoring

Vorbereitung

Prognose

› Abweichende Modellperformance bei Offline-

und Online-Evaluation

› Trainings- und Scoringdaten entstammen

unterschiedlichen Verteilungen

› Ursache z.B. veraltete Trainingsdaten oder

nicht-repräsentatives Sample

https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/46178.pdf

income

› Anpassbarkeit an sich kontinuierlich ändernde

Rahmenbedingungen bzw. Verhaltensmuster

› Erfordert Re-Training auf aktuellen Daten, Feature

Engineering oder neue Modellierungsansätze

› Monitoring und automatisiertes Deployment sind

grundlegend für schnelle Reaktionsfähigkeit

› Welchen Einfluss haben Änderungen von

Systemparametern (z.B. auf das Nutzerverhalten)?

› Layout einer Website → Click-Through-Rate

› Auch zur Abschätzung des Einflusses von Änderungen an

ML-Komponenten geeignet

› Gegenüberstellung der Performance verschiedener

Modelle unter realen Bedingungen

› Einsatz von Business-KPI’s oder geeignete Proxies

Modell A

Modell B

CTR = .017

CTR = .024Anfragen Prognosen

› Historisierung von Daten, Modellen, Reports

› Nachvollziehbarkeit von Prognosen und Entscheidungen

› Ermöglicht Benchmark älterer Modelle auf neuen Daten und

Backtesting von neuen Modellen auf älteren Daten

› Grundlage für Audits und Fallback-Strategien

› Vermeidbarer Mehraufwand

› Korrekte Replikation der Modelle schwierig

› Fehlende ML Bibliotheken in Produktion

› Nur für einfache Modelle praktikabel

Modell liegt als Konzept vor und wird auf Produktions-Stack reimplementiert

Verwendung dedizierter Machine Learning Frameworks in Entwicklung und Produktion

› Ende-zu-Ende Abdeckung

› Lokale und Remote Entwicklung

› Multi-Language Support

› Horizontale Skalierbarkeit

› Eingeschränkter Funktionsumfang

Modell wird als Webservice in einem Container deployt

› Voller Funktionsumfang von Python, R, etc.

› Isolierte Abhängigkeiten

› Horizontale Skalierbarkeit

› On-Premise oder Cloud

› Erfordert (ein wenig) SW Engineering

Funktionsumfang

Cloud & Container

Prototyping & Ad-Hoc Analysis

ML Frameworks

Development Production

Client

Predictions

ScoringTraining Data

Training Model Store

ServiceScoring Data

ID Pred

Service

Production

Transform

FactsProducer

Client Scoring

Events

Requests

Predictions

ID Data

1. Definition von Problemstellung, Zielsetzung und

angemessenen Performance-Metriken

2. Identifikation von grundlegenden Features und

einfachen Modellierungsansätzen

3. Fokus auf stabile Pipelines und skalierbare

Algorithmen bzw. Frameworks

› ML Deployment betrifft den gesamten Lebenszyklus

› SW Engineering ist essenziell für produktionsreifes ML

› Pipeline-Konzept erleichtert Reproduzierbarkeit

› Kontinuierliches Performance-Monitoring

› ML Frameworks und Container-basierte Ansätze

Rules of ML, Best Practices for ML Engineering

Data Science in Production: Packaging, Versioning and Continuous Integration

From the Lab to the Factory: Building a Production Machine Learning Infrastructure

The Keys to effective Data Science Projects

Demystifying Docker for Data Scientists

Production Recommendation Systems with Cloudera

Machine Learning for Software Engineers

Overlapping Experiment Infrastructure

Marcel Spitzer

Big Data Scientist

inovex GmbH

Ludwig-Erhard-Allee 6

76131 Karlsruhe

marcel.spitzer@inovex.de

Data Science mit Python und R - inovex · Colin Shearer, Rüdiger Wirth (2000); CRISP-DM 1.0...

Documents

A step-by-step guide for creating advanced Python data ...deeplearning.lipingyang.org/wp-content/uploads/... · A step-by-step guide for creating advanced Python data visualizations

Data Quality Step by Step - · PDF fileOutlines Data Quality Step by Step Ronnie Babigumira PEN Workshop, 08/01/08 Ronnie Babigumira Data Quality Step by Step

0108 Data Step

Step by Step Sap Bi Master Data Loading

Azure Data Factory v2 - inovex GmbH...Azure Data Factory v2 Passcamp 2017 Stefan Kirner. 1. Target Scenarios 2. Current State 3. Intro Data Factory v2 4. Triggers 5. Control Flow 6

Step by Step Upload Master Data From Flat File

Step-by-Step Tutorial NEXTA: Simulation Data Visualizer for TRANSIMS Step-by-Step Tutorial NEXTA: Simulation Data Visualizer for TRANSIMS NEXTA: Network

BODS Data Services Tutorial Step by Step

A Step-By-Step Guite to Qualitative Data Analysis

Step by Step Configuration Data Guard 11202

Chapter 4 Topic 2: Journalizing Transactions. Steps in the Accounting Cycle Step 1 – ORIGINATING DATA Step 2 – JOURNALIZING DATA Step 3 – POSTING Step

SITUATION ANALYSIS TOOLKIT STEP 1: DATA … · 1 OPTIONS SITUATION ANALYSIS TOOLKIT | STEP 1 DATA ... 2 OPTIONS SITUATION ANALYSIS TOOLKIT | STEP 1 DATA COLLECTION ... Process Gathering

Bug bites Elephant? - 2013.berlinbuzzwords.de · Bug bites Elephant? Test-driven Quality Assurance in Big Data Application Development Dr. Dominik Benz, Inovex GmbH 2013/06/03, Berlin

Data Protection step-by-step...Tectrade. Data Protection step-by-step Step #3: Ensure your backup strategy supports your business strategy Yes, a key focus of most backup strategies

CoreOS integration for Foreman - inovex GmbH · inovex GmbH | Ludwig-Erhard-Allee 6 | 76131 Karlsruhe | Tel. +49 721 619021-0 | info@inovex.de | CoreOS integration for Foreman

Ch 2. DATA Step

5. THE STEP-BY-STEP APPROACH FOR DATA HARMONIZATION …

Big Data Recruitment Step by Step | JobsTheWord

Step by Step Guide to Enhance a Data Source

Advanced Clojure Microservices - inovex GmbH · Clojure, Java, Cloud tobias.bayer@inovex.de 2 Tobias Bayer Senior Developer / Software Architect inovex GmbH