68
Einführung in das Data Mining © Marcus Hudec Methoden der Datenanalyse AI-basierte Decision Support Systeme WS 2006/07 Ao.Univ.Prof. Dr. Marcus Hudec [email protected] Institut für Scientific Computing, Universität Wien

Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

Einführung in das Data Mining

© Marcus Hudec

Methoden der Datenanalyse AI-basierte Decision Support Systeme

WS 2006/07

Ao.Univ.Prof. Dr. Marcus [email protected]

Institut für Scientific Computing, Universität Wien

Page 2: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

2 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Wozu Data Mining ?

We are drowning in data, but starving for knowledge (information)John NaisbettNow that we have gathered so much data, what do we do with it ?Fayyad & Uthurusamy CACM, 1996

Page 3: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

3 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

ProgrammatikWhile database technology has provided us with the basic tools for the efficient storage and lookup of large data sets, the issue of how to help humans understand and analyze large bodies of data remains a difficult and unsolved problem.

To deal with the data glut, a new generation of intelligent tools for automated data mining and knowledge discovery is needed.

Fayyad, Piatetsky-Shapiro,Smyth & Uthurusamy

Page 4: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

4 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Entstehung von Massendaten

Supermarkt ScannerdatenDatenbestände von Banken und VersicherungenProzessdaten aus Real-Time Applikationen (Telekommunikationssektor)E-Commerce (Clickstream-Daten)Forschungsdatenbanken (Satellitendaten, DNA-Datenbanken)

Page 5: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

5 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Anwendungen in der Wirtschaft

KreditrisikoanalyseZielgruppenmarketingFehleranalyse in TelekommunikationsnetzenAufdeckung von GeldwäscheSchadensfallanalyse im VersicherungsbereichWarenkorbanalyseAnalyse von eCommerce-Anwendungen

Page 6: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

6 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Interdisziplinäres Forschungsgebiet

StatistikArtificial IntelligenceData EngineeringData WarehousingOLAP (on-line analysis processing)Expertensysteme (deductive databases)Data VisualizationOptimierungstheorieMachine LearningPattern Recognition

Page 7: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

7 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Was versteht man unter Data Mining ?

Discovering knowledge from data

Data Mining bezeichnet eine Sammlung von Techniken (~Algorithmen) zum Auffinden von validen, neuen, interessanten, interpretierbaren und nützlichen (verwertbaren) Mustern, Regeln, Gruppen und Abhängigkeiten (~Wissen) in großen Datenbanken.

Page 8: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

8 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Definitionen von Data Mining

"Data mining is the process of discovering meaningful new correlations, patterns and trends by "mining" large amounts of stored data using pattern recognition technologies, as well as statistical and mathematical techniques."

Ashby, Simms (1998)"Data mining is the exploration and analysis, by automatic and semiautomatic means, of large quantities of data in order to discover meaningful patterns and rules.“

Berry, Linoff (1997)Extraction of interesting (non-trivial, previously unknown and potentially useful) information or patterns from data in large databases

Page 9: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

9 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Alternative Bezeichnungen

Knowledge discovery(mining) in databases (KDD)knowledge extractiondata/pattern analysisdata dredginginformation harvestingbusiness intelligence

Page 10: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

10 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Was versteht man unter Data Mining ?

Data Mining versucht explorativHypothesen über die in einer Datenbank (in einem Data Warehouse) gespeicherten Daten aufzufinden.Das heißt mittels statistischer, systemtheoretischer und auf Visualisierung abzielender Verfahren und Methoden Assoziationen, Klassen und Muster zu erkennen.

Page 11: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

11 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Klassisches Berichtswesen versus Data MiningBerichtswesen- OLAP Data Mining

„Wie viele Kunden aus den einzelnenRegionen haben auf dieletzte DM-Aktion positiv reagiert?“

„Welche Kunden werden sehrwahrscheinlich auf die nächste DM-Aktion positiv reagieren?“

„Haben Kunden mit einem relativhohen Umsatz einegeringere Kündigungsrate?“

„Welche Merkmale beschreibentypischerweise Kunden, dieden Vertrag stornieren?“

„Haben die Kunden in gleichenWohnhaustypen ein vergleichbaresNutzungsverhalten?“

„Welche typischen homogenenKundensegmente lassen sichidentifizieren?“

Page 12: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

12 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Data Mining im analytischen CRMData Mining ist das computergestützte Gewinnen von verborgenen Informationen aus Geschäfts-datenbanken.Ziel ist dabei die Steigerung der Effizienz von Geschäftsprozessen und die Erhöhung der Profitabilität.Data Mining ist ein Prozess, der die Zusammenarbeit von Data Mining Experten mit Informatikern und Fachleuten mit Wissen über die Geschäftsprozesse, sowie Entscheidungsträgern im Unternehmen erfordert.

Page 13: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

13 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Data Warehousing

Ein Data Warehouse dient dazu, Daten einer Organisation, die in unterschiedlichen internen und externen Quellen (operativen Systemen) gespeichert werden, zusammenzuführen und inhaltlich neu zu strukturieren.

Operational Systems

Data ExtractionTransformation-Engine

Data Warehousewith Metadata

Datenmanagement Datenorganisation Datenauswertung

Page 14: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

14 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Data Warehousing als GrundlageThere is a symbiotic relationship between the activity of data mining and the data warehouse – the architectural foundation of decision support systems. The data warehouse sets the stage for effective data mining. (Inmon 1996)

Metadaten-ModellierungInformationen über Inhalte und semantische Bedeutung der Daten eines Data Warehouse in Datenbankanwendungen zu integrieren und für Mining Zwecke verfügbar zu machen.DatenqualitätLogische Datenintegration, Fehlerbereinigung, unterschiedliche Aggregationsniveaus, historische Datenbank

Page 15: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

15 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Aufgaben des Data MiningDescription• Auffinden von interpretierbaren Mustern in den

Daten (Sequenzen)• Auffinden von Assoziationen• Auffinden von Abweichungen

Prediction• Basierend auf Attributen der Datenbank

Vorhersagen über künftige Werte von anderen interesierenden Attributen

Classification• Allokation zu vorgegebenen Gruppen• Auffinden von typischen Gruppen

Visualization

Page 16: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

16 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Predictive Modeling

Basierend auf gesammelten Daten der Vergangenheit Vorhersagen über künftiges Verhalten treffenData description alone cannot provide an action plan. You must build a predictive model based on patterns determined from known results and then test that model.Building Profitable Customer Relationships with Data Mining. Herb Edelstein (2000)

Page 17: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

17 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Predictive Modeling (1)

Schätzung von Produktassoziationen• Assozationsalgorithmen• Warenkorbanalysen• Identifikation von Produkten, die häufig auf

den selben Kassenbons aufscheinen bzw. die häufig von den selben Kunden gekauft werden

Page 18: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

18 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Predictive Modeling (2)

Bildung von homogenen Kundensegmenten um das Ansprechverhalten der Kunden zu optimieren• Methoden der Clusteranalyse• k-means, Two Step Cluster Analysis,

Kohonen Self Organizing Maps

Page 19: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

19 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Predictive Modeling (3)

Schätzung von quantitativen Größen• Regression Analysis• Bewertung von Kunden (customer value)• Prognose von Umsätzen• Prognose von Nachfrage,

Verbrauchsmengen

Page 20: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

20 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Predictive Modelling (4)Vorhersage der Eintrittswahrscheinlichkeit von Ereignissen • Kaufwahrscheinlichkeiten,

Churn-Wahrscheinlichkeiten• Methoden des Supervised learning

- Logistische Regression, Entscheidungsbäume, Neuronale Netze

Page 21: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

21 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Predictive Modelling (5)

Vorhersage des Zeitpunktes von Ereignissen (survival analysis)• Folgeabschlüsse bei abreifenden Produkten,

Optimierung der Kundenüberleitung • Methoden der Survival Analysis

- Cox-Modell, Kaplan Meier

Prognose von ErsatzzyklenWie lange dauert es vom ersten Click auf einen e-Shop bis der Kunde zum Käufer wird

Page 22: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

22 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Anwendung im Direct Marketing

Page 23: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

23 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Zahlen zum vorigen Beispiel

100.000 Kunden1.000 Responses zum konkreten AnbotDirect Mail an die „wahrscheinlichsten“10% (10.000) erreicht bereits 40% der ZielpopulationDirect Mail an die „wahrscheinlichsten“40% (40.000) erreicht bereits 80% der Zielpopulation

Page 24: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

24 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

98% der Prognosen sind falsch

96% der Prognosen sind falsch

Page 25: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

25 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

One-to-One Marketing

Die Herausforderung des heutigen Marktes besteht darin, die im wachsenden Maße heterogenen Wünsche und Bedürfnisse jedes Einzelnen zu verstehen und zu erfüllen.Segmentierung des Markts in Kleinstsegmente stellt enorme Anforderungen, denen die in der Praxis des Data Mining heute generierten Prognosemodelle häufig nicht gerecht werden können

Page 26: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

26 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udecVereinfachte Sicht des Data Mining

Historische Daten

Data MiningSoftware

Prognose

Produktions-planungbzw.Lagerhaltung

Vertriebs/Marketing-Aktivitäten

Page 27: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

27 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Der Kreislauf des Data Mining

Geschäfts-prozesse

Daten

ErgebnisseMarketing Aktivitäten

Page 28: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

28 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udecDer Kreislauf des Data Mining

Geschäfts-prozesse

Daten

ErgebnisseMarketing Aktivitäten

Daten-Modellierung

Page 29: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

29 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udecDer Kreislauf des Data Mining

Geschäfts-prozesse

Daten

ErgebnisseMarketing Aktivitäten

PredictiveModelling

Page 30: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

30 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udecDer Kreislauf des Data Mining

Geschäfts-prozesse

Daten

ErgebnisseMarketing Aktivitäten

Interpretation

Verwertung

Page 31: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

31 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Eckpunkte einer profitabler Data MiningStrategie1. Definition des Problemfeldes (Business

Understanding)2. Schaffung eines entsprechenden IT-

Umfeldes3. Explorative Datenanalyse (Data

Understanding)4. Datenaufbereitung (Data Preparation)5. Modellierung6. Modellevaluation7. Anwendung & Monitoring (Deployment)

Page 32: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

32 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Methodenformate Data Mining Methodenformate (z.B. CRISP-DM) bieten Anhaltspunkte für die Vorgehensweise CRISP-DM Cross Industry Standard Processfor Data MiningEffiziente Projektorganisation von DataMining ProjektenHerstellerunabhängigkeitwww.crisp-dm.org

Page 33: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

33 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

CRISP-DM

Robustes, allgemeines Modell

Zuverlässiger und wiederholbarer Prozess

Kosten- und Zeitreduktion

Unterstützung bei Dokumentation

Unterstützung bei Wissensmanagement

Page 34: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

34 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Beispiel-Stream von Clementine

Page 35: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

35 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Data Mining im Unternehmen

Data Mining startet in einem Unternehmen meist aus einer konkreten Fragestellung als kleines ProjektData Mining is a journey – an ongoing initiative – not a project

Schaffung organisatorischer Rahmenbedingungen für effiziente Data Mining - Prozesse

Page 36: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

36 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Data Mining and Business Intelligence

Increasing potentialto supportbusiness decisions

End User

BusinessAnalyst

DataAnalyst

DBA

MakingDecisions

Data PresentationVisualization Techniques

Data MiningInformation Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data SourcesPaper, Files, Information Providers, Database Systems, OLTP

Page 37: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

37 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Softwareanbieter im Data Mining

Page 38: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

38 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

3 heroische Konventionen in der Praxis

Ein einmal entwickeltes Prognosemodell kann routinemäßig angewendet werdenDie Anwender des Modells verstehen die Spezifika der Modellierung und setzen das Modell korrekt einIst die Population auf die das Modell angewendet wird mit jener vergleichbar, die für die Modellentwicklung herangezogen wurde?

Page 39: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

39 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Annahme struktureller Konstanz

Handlungsrelevante Aussagen können nur aus Daten gewonnen werden, welche die aktuellen und zukünftigen Marktverhältnisse widerspiegeln.• Unveränderte Marktstrukturen• Konstante Kunden- und

WettbewerbsverhaltensweisenHippner, Wilde „Der Prozess des Data Mining im Marketing“

Page 40: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

40 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Kurzlebigkeit von Data Mining Ergebnissen

Ergebnisse des Data Mining sind in der Praxis nur kurzfristig gültig• Entwickelte Märkte sind extrem dynamisch• Kundenverhalten hängt in einer komplexen

Weise von einer Vielzahl von Einflussfaktoren ab

• Kundenverhalten unterliegt Technologie-und Modetrends

Page 41: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

41 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Self Destroying Prophecy

Aus den Ergebnissen abgeleitete Marketingaktivitäten verändern die datengenerierenden ProzesseErschwert eine objektive Bewertung von Modellen, die Data Based Marketing –Strategien bestimmenProblem: Identifikation guter Modelle

Page 42: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

42 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Metriken zur Erfolgsmessung

Frühzeitige Definition von Kennzahlen zur Messung des ErfolgesMaßnahmen zur Umsetzung von ErkenntnissenTransparente Kommunikation der Modellergebnisse im Unternehmen

Laufende Überwachung derModelleffizienz

Page 43: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

43 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Fachübergreifende Kooperation

• Erfolgreiches Data Mining setzt die Kooperation von Data Mining Experten mit Informatikverantwortlichen, Fachleuten mit Wissen über die Geschäftsprozesse und Top-Entscheidungsträgern im Unternehmen voraus

Page 44: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

44 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Statistik versus Data Mining

„Learning from data“„Turning data into information“

Wodurch unterscheiden sich die Lösungsansätze des Data Mining von klassischen statistischen Methoden ?

Page 45: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

45 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Unterschiede im methodologischen Ansatz (1)

Statistikpräzise formuliertes spezifisches SachproblemDatenerhebung oft forschungsorientiert

Konzept von Stichprobe/Grund-gesamtheit

Data Miningunscharf formulierte globale Aufgabenstellung

Datenerhebung durch Aufzeichnung von Transaktionen in operativen Systemen Inhalt einer Datenbank(Data Warehousing)

Page 46: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

46 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Unterschiede im methodologischen Ansatz (2)

StatistikVersuchsplanung(Homogenisierung via inclusion/exclusioncriteria; stratification; randomisation)einfache Datenstruktur (Datenmatrix)Hohe DatenqualitätÜberschaubare Datenbestände

Data Miningkomplexes Beziehungsgeflecht von Ursache und Wirkung

komplexe DatenstrukturenSchlechte DatenqualitätExtrem große Datenbestände

Page 47: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

47 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Unterschiede im methodologischen Ansatz (3)

StatistikMathematikModellTheoretische Analyse von Optimalitäts-eigenschaften

Data MiningInformatikAlgorithmusHeuristik; Benchmarkingmit Real Life Data

Page 48: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

48 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Herausforderung an die Statistik:

extrem große Datenmengen erfordernAutomatische Modellierungstechniken(automatic data analysis)

The statistician's tendency to avoid complete automation out of the respect or the challenges of the data, and the historical emphasis on models with interpretable structure, has led that community to focus on problems with a more manageable number of variables than may be encountered in Data Mining.Elder & Pregibon

Page 49: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

49 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Algorithmen verdrängen Modelle

The key role of programs has lead to an increased emphasis on algorithms in data mining, in contrast to the emphasis on models in statistics. The idea is that one applies the algorithm to data sets, learning how it behaves and what properties it has, regardless of any notion of an underlying model (or pattern) which it might be building.(Hand 1999).

Page 50: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

50 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Konvergenz von Algorithmen ?

An important feature of an estimator is consistency; in the limit, as the sample size increases without bound, estimates should almost certainly converge to the correct value of whatever is being estimated.Heuristic procedures, which abound in machine learning, have no guarantee of ever converging to the right answer.(Glymour et al. 1996).

Page 51: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

51 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Klassischer AnalyseprozessModellwahl integrativer Teil des wissenschaftlichen Analyseprozess (iterativer Prozess abhängig von Daten/Ergebnissen)Modellwahl• Modellierung des datengenerierenden Prozesses• Behandlung extremer Werte• Variablenselektion

Modelldiagnose• Goodness of fit; Residuenanalyse; influential

observations• Predictive accuracy (cross-validation)

Page 52: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

52 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Data Mining Analyseprozess„off the shelf procedures“Anspruch: Algorithmus liefert „gute“ErgebnisseFlexibler Algorithmus• Große Datenmengen• Fehlerbehaftete Daten• Fehlende Werte• Unterschiedliche Skalenniveaus• Invarianzeigenschaften• Filtern irrelevanter Inputs• Interpretierbarkeit

Page 53: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

53 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Grenzen des Data Mining (I)

The major barrier in obtaining high-qualityknowledge from data is due to the limitationsof the data itselfMögliche Datenquellen:• operative Systeme, die die Durchführung

von geschäftlichen Transaktionen unterstützen

• Nichtoperationale Daten (z.B. wirtschaftliche Rahmenbedingungen)

• Meta-Daten • Hintergrundwissen

Page 54: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

54 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Schwachstellen der Datenbasis

Mangel an RepräsentativitätFehlen wichtiger VariablenFehlende Versuchsplanung ==> komplexe Korrelationsstrukturen (confounding)Fehlende WerteVerzerrte DatenAlterungsprozess der gesammelten Daten

Page 55: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

55 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Grenzen des Data Mining (II) - AussagekraftData Mining ist ein exploratives Verfahren, dessen Ergebnisse mit großer Vorsicht zu interpretieren sind.Bei Data Mining geht es nicht primär darum, "wahre Gesetzmäßigkeiten" über den datengenerierenden Prozess aufzuzeigen.Im Vordergrund steht, ob die Ergebnisse für den intendierten Zweck brauchbar bzw. praxistauglich sind.• Overfitting• Signifikanz kleiner irrelevanter Aspekte

Page 56: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

56 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Grenzen des Data Mining (III) - AussagekraftEin weiteres Problem kann im Überschätzen der Allmacht des Algorithmus liegen. Es besteht zweifellos die Gefahr, dass der Anwender jegliche Beziehung zu den Daten und Ihrer Semantik verliert. Der komplexe Algorithmus wird für den Anwender zur undurchschaubaren Black-Box, die ihm von den Daten trennt. Das menschliche Überprüfen von Modellannahmen entfällt und die vom Algorithmus generierten Ergebnisse, welche oft nur eines von vielen mögliche Interpretationsszenarien eines komplexen Datensatzes darstellen, werden fälschlicherweise als erwiesenes Faktum angesehen.

Page 57: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

57 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Grenzen des Data Mining (IV) - AussagekraftHäufig erlauben empirischen Daten keine eindeutige Entscheidung zwischen in bezug auf die den Algorithmus steuernden Kriterien nahezu äquivalenten Modellen, welche jedoch eine unterschiedliche semantische Interpretation aufweisen.Sensitivitätsanalysen und Visualisierungs-techniken werden hier zum unverzichtbaren Instrument, will man das Auffinden von Artefakten vermeiden.

Page 58: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

58 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Grenzen des Data Mining (V) - Privacy

Angst vor der missbräuchlichen Verwendung personenbezogener Daten kann das allgemeine Klima für statistische Erhebungen entscheidend beeinträchtigen Strikte Einhaltung ethischer Grundprinzipien

Page 59: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

59 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

FALLBEISPIELE

Page 60: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

60 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Analyse eines VersicherungsbestandesSchadenfrequenz in den Gruppen nach Scorewert (1-jährig) - alle Haftpflichverträge

0%

5%

10%

15%

20%

25%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Gruppe

Schä

den

in P

roze

nt

Page 61: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

61 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Seit 2003 wird bei einer großen österreichischen Versicherung das Annahmeverhalten der Kunden bei früheren Aktionen für die gezielte Kundenauswahl mittels Methoden des Data Mining herangezogen.

Direct mail Kampagne - Annahmequote in %

4,7 4,4

8,2

12,2

0

2

4

6

8

10

12

14

2000* 2002 2003 2004*2001 aufgrund Umstellung Verw altungssystem keine DM-Aktion

Anwendung Versicherungsbranche

Page 62: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

62 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Praxisbeispiel: CHURN-Analyse

1,0,8,5,30,0

1,0

,8

,5

,3

0,0

AUC = 0,821

Bei Kontaktierung von 30% der Kunden können 80% der abwanderungs-gefährdeten Kunden erreicht werden.

Echtdaten Mobilfunkanbieter Österreich

Page 63: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

63 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Entscheidungskriterien für Selektion

Page 64: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

64 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Entscheidungskriterien für Selektion

Selektion: maximale

Responsequote

Page 65: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

65 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Entscheidungskriterien für Selektion

ProfitmaximierendeSelektion

Page 66: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

66 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Reichweiten-maximierende und

kostenneutrale Selektion

Entscheidungskriterien für Selektion

Page 67: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

67 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

OptimaleSelektion unter

Berücksichtigungbeider Größen

Entscheidungskriterien für Selektion

Page 68: Methoden der Datenanalyse AI-basierte Decision Support … 2006... · 2006. 10. 24. · Einführung in das Data Mining ©Marcus Hudec Methoden der Datenanalyse AI-basierte Decision

68 Einführung in das Data Mining

© Marcus Hudec

©M

arcu

s H

udec

Executive Summary

Der unreflektierte Einsatz moderner DataMining Software alleine bietet keine wie immer geartete Garantie für den ErfolgOhne den intelligenten Einsatz moderner Data Mining Verfahren nach einem „Best Practice Standard“ im analytischen CRM werden Unternehmen auf entwickelten stark kompetitiven Märkten mittel- bis langfristig massive Wettbewerbsnachteile erleiden.