Software for big data - setting the scene

Embed Size (px)

Citation preview

Page 1: Software for big data -   setting the scene



Page 2: Software for big data -   setting the scene

Het doel van dit college is• dat we afspraken maken over hoe we komen

tot een jargon lijst • Dat je de plek van data science in de

organisatie context kent• Dat je het data science proces kent• Dat je inzicht hebt in welke stakeholders je

nodig hebt in een organisatie voor een succesvol data science project

Page 3: Software for big data -   setting the scene

Wederzijdse Afspraken

Data Science Jargon

Uitleg inhoud SE theorie en praktijk

The Big Picture of Analytics

The Data Science Process

Roles in a Data Science project

Page 4: Software for big data -   setting the scene
Page 5: Software for big data -   setting the scene

Kennen kent het jargon kent het IT landschap van big data kent methoden van project aanpak

binnen de data science CRISPDM kent de inrichting van data

warehouse kent de code conventies

gebruikelijk voor R

Kunnen kan een project indelen en uitvoeren

naar CRISP-DM methodiek Kan eenvoudige statistische methoden

toepassen in R Kan zelfstandig data acquireren en

inladen in R Kan data beoordelen op validiteit /

integriteit en waar nodig opschonen Kan exploratieve data visualisaties

maken Kan R code voorzien van commentaar

ten behoeve van leesbaarheid

Leerdoelen voor het vak

Page 6: Software for big data -   setting the scene

thema thema Data Science Process Aquiring data Databases Data Exploration

weeknummer Lesweek week 1 week 2 week 3 week 4kalenderweek 36 37 38 39

theorie College CRISPDMRelational databases datawarehousing

ELT/ETL anomalies / data cleaning

Literatuur Practical data science in R hfst 1 data science proceshfst 2 Loading data in R

hfst 4 managing data

Performance management

Uitdagingen en definities van performance management Hoofdstuk 1 Behoefte aan een gestructureerde aanpak van

Hoofdstuk 12 Extractie - Transformatie - Loading

Hoofdstuk 8 Online Analytical Processing Performance Management-


Praktijk datacampWriting functions in R / data manipulation with dplyr

Loading data into R /Clean data in R

data vizualisation with ggplot 1

data vizualisation with ggplot 2

ExamDeadline first 3 datacamp courses

werkcollege Access Noorderwind databaserelationele database bouwen SIS

datawharehouse SIS Data cleaning EV data

assignment (Friday) Titanic competition

download a dataset plot dataset in order to find distribution typegenerate 4 different distibutions

scatterplot different groups + facetting

lon /lat + cleaning ervan

optioneel kennisverhogingA Hands-on Introduction to

Statistics with R

Page 7: Software for big data -   setting the scene


Data Wrangling Deployment Documentation Exam Capstone

week 5 week 6 week 7 week 8 week 940 41 43 44 45

OLAPDeployment with Shiny server


hfst 3 Exploring datahfst 10 documentation and deployment

Hoofdstuk 9 Rapportering

Ggvis + shiny server Shiny server dashboardsReporting with Markdown and


Deadline second 3 datacamp courses theory exam deadline project

interactief plaatje gis plaatje dashboard

** data table **

Page 8: Software for big data -   setting the scene
Page 9: Software for big data -   setting the scene

Het Data Science Jargon

Page 10: Software for big data -   setting the scene

Data Warehouse Concepts Course v.6.0


…all Analysis& Ad-Hoc rept.

…all MgmtReporting


Analysts(Fin., Sal., Prod., …)



Data Warehouse

Page 11: Software for big data -   setting the scene
Page 12: Software for big data -   setting the scene

ETL versus ELT

Page 13: Software for big data -   setting the scene
Page 14: Software for big data -   setting the scene
Page 15: Software for big data -   setting the scene

Gebrek aan voorspelbaarheidgoede doelstellingen kunnen pas gemaakt worden als een goed kennis van de te verwachten evoluties aanwezig is

gebrek aan verantwoordinger is nood aan de mogelijkheid om performantie indicatoren toe te wijzen aan de personen die het dichtst staan bij de business

gebrek aan visibiliteitis er een volledig zicht op de performance van de volledige organisatie? Is het duidelijk welke rol iedereen en alle processen spelen bij de totstandkoming van de uiteindelijke bedrijfsresultaten?

Hfst 1 performance management - frustraties

Page 16: Software for big data -   setting the scene

Organisatie structuur in 1 slide

Page 17: Software for big data -   setting the scene

Corporate performance management?Balanceren tussen verleden en toekomst en tussen financieel en business

CPM wil een gebalanceerd zicht geven op bedrijfsperformantie met een gepaste mix van financiële en operationele maatstaven, gecombineerd met de technologie die de historische en verwachte activiteit op een effectieve manier voorstelt.

Butler Group, 2004. Corporate Performance Management, A new approach to business control and planning. Technology Evaluation and Comparison Report.

Page 18: Software for big data -   setting the scene

CPM verzoent het verleden, het heden en de toekomst

Cognos, 2004. The Visionary CFO. Leadership in Corporate Performance Management. Cognos Press, Canada.

Page 19: Software for big data -   setting the scene
Page 20: Software for big data -   setting the scene

Hoe complexer de berekeningen en tools in de organisatie hoe groter de meerwaarde is

Er wordt altijd een moeten worden gezocht in:Snelheid*complexiteit*data volume=

Benodigde rekenkracht

Page 21: Software for big data -   setting the scene
Page 22: Software for big data -   setting the scene
Page 23: Software for big data -   setting the scene

« We did a Pareto analysis, a grid analysis, a decision tree, a force field analysis... And then the boss decided to go with his gut. »

Page 24: Software for big data -   setting the scene

Vanuit beslissingsperspectief zie je de volgende IT tools

Butler Group, 2004. Corporate Performance Management, A new approach to business control and planning. Technology Evaluation and Comparison Report.

Binnenste cyclus elementen ter ondersteuning van het beslissingsprocesProactiviteit ontbreekt ietwatAnalytical Intelligence moet meer kunnen doen

Buitenste cyclus Cooke & Slack decision-making process

Page 25: Software for big data -   setting the scene

Performance management onderdelen

"a set of techniques and tools for the acquisition and transformation of raw data into meaningful and useful information for business analysis purposes

Inzicht genereren in de toekomst v van de organisatie op basis van best-in-class methodieken

Voor onze minor zijn Business intelligence en Analytical inteligence van belang

Page 26: Software for big data -   setting the scene

Turning from a rear view mirror on the business...

Business intelligence is feitelijk een slimme manier om achteruit te kijken

Page 27: Software for big data -   setting the scene

5. IMPLEMENTATIE VAN STRATEGIETerwijl Analytical intelligence vooral* vooruit kijkt

Analytical intelligence kijkt niet alleen vooruit in de zin van voorspellingen maar kijkt ook naar waarom de dingen gaan zoals ze

gaan, vanuit beter begrip over het systeem waar je in zit kun je betere beslissingen maken

Page 28: Software for big data -   setting the scene

Op het laagste niveau is de informatie operationeel en locaal. Gedetailleerde informatie ontstaat en wordt gebruikt door ERP processen.Op het tactische niveau wordt de informatie gedeeltelijk geaggregeerd en samengevat om het nemen van bedrijfsbeslissingen op het onderliggende niveau te ondersteunen.Op het hoogste niveau wordt de scope strategisch en globaal, sterk samengevatte informatie is beschikbaar om strategische communicatie en feedback toe te laten.Het is belangrijk te noteren dat informatie beweegt van onder naar boven en van boven naar onder. Strategische beslissingen worden bovenaan genomen en geventileerd naar beneden, performance management feedback keert terug naar boven van onder naar boven. Deze interactie tussen top-down en bottom-up wordt voortdurend iteratief doorlopen en beweegt als een “jo-jo”.

De Business Intelligence pyramide illustreert de

informatiestromen door de organisatie een


Page 29: Software for big data -   setting the scene

Uitgewerkt ziet het er dan zo uit(voor zover bedrijven daadwerkelijk in staat zijn een volledige uitrol te maken van de strategische piramide)

Page 30: Software for big data -   setting the scene
Page 31: Software for big data -   setting the scene


• Beter inzicht in de bestaande processen via operationeel onderzoek levert inzichten en hefbomen op die bruikbaar zijn:

Bij het zetten van targets Het onderbouwen van plannen Het bouwen van (nieuwe) strategieën Verklaren en beter begrijpen van

geobserveerde performantie Het anticiperen van gevolgen van

beslissingen Het doorgronden van strategische

oorzaak- en gevolgrelaties Het modelleren van de volledige business

Page 32: Software for big data -   setting the scene

Data science proces

Page 33: Software for big data -   setting the scene

Software enginering processen

Page 34: Software for big data -   setting the scene

Data Science proces

Page 35: Software for big data -   setting the scene

• Why do the sponsors want the project in the first place? What do they lack, and what do they need?

• What are they doing to solve the problem now, and why isn’t that good enough?

• What resources will you need: what kind of data and how much staff? Will you have domain experts to collaborate with, and what are the computational resources?

• How do the project sponsors plan to deploy your results? What are the constraints that have to be met for successful deployment?

Data Science proces –Define the goal

Page 36: Software for big data -   setting the scene

• What data is available to me? • Will it help me solve the problem? • Is it enough?• Is the data quality good enough

Data Science proces – collect and manage data

Page 37: Software for big data -   setting the scene

• Classification—Deciding if something belongs to one category or another

• Scoring—Predicting or estimating a numeric value, such as a price or probability

• Ranking—Learning to order items by preferences • Clustering—Grouping items into most-similar groups • Finding relations—Finding correlations or potential causes of effects

seen in the data• Characterization—Very general plotting and report generation from


Data Science proces – build the model

Page 38: Software for big data -   setting the scene

• Is it accurate enough for your needs? • Does it generalize well?• Does it perform better than “the obvious guess”? • Better than whatever estimate you currently use?• Do the results of the model (coefficients, clusters, rules) make sense

in the context of the problem domain?

Data Science proces – evaluate the model

Page 39: Software for big data -   setting the scene
Page 40: Software for big data -   setting the scene

Listing 1.2 practica data science in R

Data Science proces – the obvious guess?!

Page 41: Software for big data -   setting the scene

Listing 1.2 practica data science in R

Data Science proces – the obvious guess?!

Page 42: Software for big data -   setting the scene
Page 43: Software for big data -   setting the scene

• How should they interpret the model? • What does the model output look like? • If the model provides a trace of which rules in the decision tree

executed, how do they read that?• If the model provides a confidence score in addition to a

classification, how should they use the confidence score?• When might they potentially overrule the model?

Data Science proces – present results

Page 44: Software for big data -   setting the scene

At least one person will read your code and that is FUTURE YOU!

Page 45: Software for big data -   setting the scene

Welke vragen zou je stellen omtrent implementatie?

Data Science proces

Page 46: Software for big data -   setting the scene

Voorbeeld 2 data science proces

Page 47: Software for big data -   setting the scene

CRISPDM Cross Industry Standard Process for Data Mining

Page 48: Software for big data -   setting the scene
Page 49: Software for big data -   setting the scene

Numerieke « business problem-solving » methode

SAS Institute Methodology, 1998. Data Mining Projects.Sas Institute, #0518 Draft.

Page 50: Software for big data -   setting the scene


Page 51: Software for big data -   setting the scene
Page 52: Software for big data -   setting the scene
Page 53: Software for big data -   setting the scene


• What is the unknown (the number I am trying to calculate)?• What data are given, and which can be estimated using

knowledge I already have?• Can I restate the problem in different words?• Can I draw a picture or graph framing the problem?• Is there another similar problem I have already solved that could

give me the key to a solution?• Can I make some simple assumptions that might help me solve

the problem more easily?• Can I just solve one of the problems?• Can I solve a simplified version of the problem, using round

numbers that are roughly right?• Are there any answers that I know are wrong?

How to Solve it: A New Aspect of Mathematical Method (Polya G., 1957)

Page 54: Software for big data -   setting the scene


Page 55: Software for big data -   setting the scene


• Zal de organisatie er iets kunnen en willen aan doen?• Hoe zit de locale politiek in elkaar?• In welke mate bestaat een cultuur die kwantitatief

genoeg is?• Zal IT willen meewerken om de verandering te

automatiseren?• Zal Operations de resultaten gebruiken voor betere

werking of zullen ze blijven werken zoals ze al altijd hebben gewerkt?

• Is de scope van de vraag in proportie tot het mandaat of zeggenschap dat we hebben? Kunnen we met andere woorden zelf iets aan het probleem doen?

Page 56: Software for big data -   setting the scene

Zorg dat de data beschikbaar is

Page 57: Software for big data -   setting the scene


Page 58: Software for big data -   setting the scene


Page 59: Software for big data -   setting the scene

Rollen in data science project

Page 60: Software for big data -   setting the scene


Page 61: Software for big data -   setting the scene




Bereid je voor op de basis van Relationele Databases Blended learning tips


