34
1 Methoden der Datenanalyse AI-basierte Decision Support Systeme Ao.Univ.Prof Ao.Univ.Prof . Dr. Marcus Hudec . Dr. Marcus Hudec [email protected] [email protected] Institut f. Institut f. Scientific Scientific Computing Computing , , Universit Universitä t Wien t Wien 2 Einführung in das Data Mining © Marcus Hudec Wozu Data Mining ? We are drowning in data, but We are drowning in data, but starving for knowledge starving for knowledge (information) (information) John John Naisbett Naisbett Now that we have gathered so Now that we have gathered so much data, what do we do with it ? much data, what do we do with it ? Fayyad & Fayyad & Uthurusamy Uthurusamy CACM, 1996 CACM, 1996

Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

Embed Size (px)

Citation preview

Page 1: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

1

Methoden der Datenanalyse AI-basierte Decision Support Systeme

Ao.Univ.ProfAo.Univ.Prof. Dr. Marcus Hudec. Dr. Marcus [email protected]@univie.ac.at

Institut f. Institut f. ScientificScientific ComputingComputing, , UniversitUniversitäät Wient Wien

2

Einführung in das Data Mining

© Marcus Hudec

Wozu Data Mining ?

We are drowning in data, but We are drowning in data, but starving for knowledge starving for knowledge (information)(information)John John NaisbettNaisbettNow that we have gathered so Now that we have gathered so much data, what do we do with it ?much data, what do we do with it ?Fayyad & Fayyad & UthurusamyUthurusamy CACM, 1996CACM, 1996

Page 2: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

2

3

Einführung in das Data Mining

© Marcus Hudec

ProgrammatikWhile database technology has provided us While database technology has provided us with the basic tools for the efficient storage with the basic tools for the efficient storage and lookup of large data sets, the issue of and lookup of large data sets, the issue of how to help humans how to help humans understand and analyze large bodies of data remains a remains a difficult and unsolved problem.difficult and unsolved problem.

To deal with the data glut, To deal with the data glut, a new generation of intelligent tools for automated data mining and knowledge discovery is needed..

FayyadFayyad, , PiatetskyPiatetsky--Shapiro,SmythShapiro,Smyth & & UthurusamyUthurusamy

4

Einführung in das Data Mining

© Marcus Hudec

Entstehung von Massendaten

Supermarkt ScannerdatenSupermarkt ScannerdatenDatenbestDatenbestäände von Banken und nde von Banken und VersicherungenVersicherungenProzessdaten aus RealProzessdaten aus Real--Time Time Applikationen Applikationen (Telekommunikationssektor)(Telekommunikationssektor)EE--Commerce (Commerce (ClickstreamClickstream--DatenDaten))Forschungsdatenbanken Forschungsdatenbanken (Satellitendaten, DNA(Satellitendaten, DNA--Datenbanken)Datenbanken)

Page 3: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

3

5

Einführung in das Data Mining

© Marcus Hudec

Anwendungen in der Wirtschaft

KreditrisikoanalyseKreditrisikoanalyseZielgruppenmarketingZielgruppenmarketingFehleranalyse in TelekommunikationsnetzenFehleranalyse in TelekommunikationsnetzenAufdeckung von GeldwAufdeckung von GeldwääschescheSchadensfallanalyse im Schadensfallanalyse im VersicherungsbereichVersicherungsbereichWarenkorbanalyseWarenkorbanalyseAnalyse von Analyse von eCommerceeCommerce--AnwendungenAnwendungen

6

Einführung in das Data Mining

© Marcus Hudec

Interdisziplinäres Forschungsgebiet

StatistikStatistikArtificialArtificial IntelligenceIntelligenceData EngineeringData EngineeringData Data WarehousingWarehousingOLAP (onOLAP (on--line line analysisanalysis processingprocessing))Expertensysteme (Expertensysteme (deductivedeductive databasesdatabases))Data Data VisualizationVisualizationOptimierungstheorieOptimierungstheorieMachineMachine LearningLearningPattern Pattern RecognitionRecognition

Page 4: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

4

7

Einführung in das Data Mining

© Marcus Hudec

Was versteht man unter Data Mining ?

DiscoveringDiscovering knowledgeknowledge fromfrom datadata

Data Data MiningMining bezeichnet eine Sammlung bezeichnet eine Sammlung von von Techniken (~Algorithmen)Techniken (~Algorithmen) zum zum Auffinden von Auffinden von validenvaliden, neuen, , neuen, interessanten, interpretierbaren und interessanten, interpretierbaren und nnüützlichen (verwertbaren) tzlichen (verwertbaren) Mustern, Mustern, Regeln, Gruppen und AbhRegeln, Gruppen und Abhäängigkeiten ngigkeiten (~Wissen)(~Wissen) in groin großßen Datenbanken.en Datenbanken.

8

Einführung in das Data Mining

© Marcus Hudec

Definitionen von Data Mining

"Data mining is the process of discovering meaningful new correlations, patterns and trends by "mining" large amounts of stored data using pattern recognition technologies, as well as statistical and mathematical techniques."

Ashby, Simms (1998)"Data mining is the exploration and analysis, by automatic and semiautomatic means, of large quantities of data in order to discover meaningful patterns and rules.“

Berry, Linoff (1997)Extraction of interesting (Extraction of interesting (nonnon--trivial,trivial, previously previously unknownunknown and and potentially useful)potentially useful) information or information or patterns from data in patterns from data in large databaseslarge databases

Page 5: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

5

9

Einführung in das Data Mining

© Marcus Hudec

Alternative Bezeichnungen

Knowledge Knowledge discovery(miningdiscovery(mining) in ) in databases (KDD)databases (KDD)knowledge extractionknowledge extractiondata/pattern analysisdata/pattern analysisdata dredgingdata dredginginformation harvestinginformation harvestingbusiness intelligencebusiness intelligence

10

Einführung in das Data Mining

© Marcus Hudec

Was versteht man unter Data Mining ?

Data Data MiningMining versucht versucht explorativexplorativHypothesen Hypothesen üüber die in einer ber die in einer Datenbank (in einem Data Datenbank (in einem Data WarehouseWarehouse) ) gespeicherten Daten aufzufinden.gespeicherten Daten aufzufinden.Das heiDas heißßt mittels statistischer, t mittels statistischer, systemtheoretischer und auf systemtheoretischer und auf Visualisierung abzielender Verfahren Visualisierung abzielender Verfahren und Methoden Assoziationen, Klassen und Methoden Assoziationen, Klassen und Muster zu erkennen.und Muster zu erkennen.

Page 6: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

6

11

Einführung in das Data Mining

© Marcus Hudec

Klassisches Berichtswesen versusData MiningBerichtswesen- OLAP Data Mining

„Wie viele Kunden aus den einzelnenRegionen haben auf dieletzte DM-Aktion positiv reagiert?“

„Welche Kunden werden sehrwahrscheinlich auf die nächste DM-Aktion positiv reagieren?“

„Haben Kunden mit einem relativhohen Umsatz einegeringere Kündigungsrate?“

„Welche Merkmale beschreibentypischerweise Kunden, dieden Vertrag stornieren?“

„Haben die Kunden in gleichenWohnhaustypen ein vergleichbaresNutzungsverhalten?“

„Welche typischen homogenenKundensegmente lassen sichidentifizieren?“

12

Einführung in das Data Mining

© Marcus Hudec

Data Mining im analytischen CRMData Data MiningMining ist das computergestist das computergestüützte Gewinnen tzte Gewinnen von verborgenen Informationen aus von verborgenen Informationen aus GeschGeschääftsfts--datenbankendatenbanken..Ziel ist dabei die Steigerung der Effizienz von Ziel ist dabei die Steigerung der Effizienz von GeschGeschääftsprozessen und die Erhftsprozessen und die Erhööhung der hung der ProfitabilitProfitabilitäätt..Data Data MiningMining ist ein Prozess, der die ist ein Prozess, der die Zusammenarbeit von Zusammenarbeit von Data Data MiningMining Experten mit Experten mit Informatikern und Fachleuten mit Wissen Informatikern und Fachleuten mit Wissen üüber die ber die GeschGeschääftsprozesse, sowie Entscheidungstrftsprozesse, sowie Entscheidungsträägern im gern im Unternehmen erfordert.Unternehmen erfordert.

Page 7: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

7

13

Einführung in das Data Mining

© Marcus Hudec

Data Warehousing

Ein Data Ein Data WarehouseWarehouse dient dazu, Daten einer dient dazu, Daten einer Organisation, die in unterschiedlichen internen und Organisation, die in unterschiedlichen internen und externen Quellen (operativen Systemen) gespeichert externen Quellen (operativen Systemen) gespeichert werden, zusammenzufwerden, zusammenzufüühren und inhaltlich neu zu hren und inhaltlich neu zu strukturieren.strukturieren.

Operational Systems

Data ExtractionTransformation-Engine

Data Warehousewith Metadata

Datenmanagement Datenorganisation Datenauswertung

14

Einführung in das Data Mining

© Marcus Hudec

Data Warehousing als GrundlageThere is a symbiotic relationship between the activity There is a symbiotic relationship between the activity of data mining and the data warehouse of data mining and the data warehouse –– the the architectural foundation of decision support systems. architectural foundation of decision support systems. The data warehouse sets the stage for effective data The data warehouse sets the stage for effective data mining.mining. ((InmonInmon 1996)1996)

MetadatenMetadaten--ModellierungModellierungInformationen Informationen üüber Inhalte und semantische ber Inhalte und semantische Bedeutung der Daten eines Data Bedeutung der Daten eines Data WarehouseWarehouse in in Datenbankanwendungen zu integrieren und fDatenbankanwendungen zu integrieren und füür r MiningMining Zwecke verfZwecke verfüügbar zu machen.gbar zu machen.DatenqualitDatenqualitäättLogische Datenintegration, Fehlerbereinigung, Logische Datenintegration, Fehlerbereinigung, unterschiedliche unterschiedliche AggregationsniveausAggregationsniveaus, historische , historische DatenbankDatenbank

Page 8: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

8

15

Einführung in das Data Mining

© Marcus Hudec

Aufgaben des Data MiningDescriptionDescription

Auffinden von interpretierbaren Mustern in den Auffinden von interpretierbaren Mustern in den Daten (Sequenzen)Daten (Sequenzen)Auffinden von AssoziationenAuffinden von AssoziationenAuffinden von Abweichungen Auffinden von Abweichungen

PredictionPredictionBasierend auf Attributen der Datenbank Basierend auf Attributen der Datenbank Vorhersagen Vorhersagen üüber kber küünftige Werte von anderen nftige Werte von anderen interesierendeninteresierenden AttributenAttributen

ClassificationClassificationAllokation zu vorgegebenen GruppenAllokation zu vorgegebenen GruppenAuffinden von typischen GruppenAuffinden von typischen Gruppen

VisualizationVisualization

16

Einführung in das Data Mining

© Marcus Hudec

Predictive Modeling

Basierend auf gesammelten Daten der Basierend auf gesammelten Daten der Vergangenheit Vorhersagen Vergangenheit Vorhersagen üüber ber kküünftiges Verhalten treffennftiges Verhalten treffenData description alone cannot provide Data description alone cannot provide an action plan. You must build a an action plan. You must build a predictive model based on patterns predictive model based on patterns determined from known results and then determined from known results and then test that model.test that model.Building Profitable Customer Relationships with Data Building Profitable Customer Relationships with Data Mining. Herb Edelstein (2000)Mining. Herb Edelstein (2000)

Page 9: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

9

17

Einführung in das Data Mining

© Marcus Hudec

Predictive Modeling (1)

SchSchäätzung von Produktassoziationentzung von ProduktassoziationenAssozationsalgorithmenAssozationsalgorithmenWarenkorbanalysenWarenkorbanalysenIdentifikation von Produkten, die hIdentifikation von Produkten, die hääufig auf ufig auf den selben Kassenbons aufscheinen bzw. den selben Kassenbons aufscheinen bzw. die hdie hääufig von den selben Kunden gekauft ufig von den selben Kunden gekauft werdenwerden

18

Einführung in das Data Mining

© Marcus Hudec

Predictive Modeling (2)

Bildung von homogenen Kundensegmenten Bildung von homogenen Kundensegmenten um das Ansprechverhalten der Kunden zu um das Ansprechverhalten der Kunden zu optimierenoptimieren

Methoden der ClusteranalyseMethoden der Clusteranalysekk--meansmeans, , TwoTwo StepStep Cluster Analysis, Cluster Analysis, KohonenKohonen SelfSelf OrganizingOrganizing MapsMaps

Page 10: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

10

19

Einführung in das Data Mining

© Marcus Hudec

Predictive Modeling (3)

SchSchäätzung von quantitativen Grtzung von quantitativen GrößößenenRegression AnalysisRegression AnalysisBewertung von Kunden (Bewertung von Kunden (customercustomer valuevalue))Prognose von UmsPrognose von UmsäätzentzenPrognose von Nachfrage, Prognose von Nachfrage, VerbrauchsmengenVerbrauchsmengen

20

Einführung in das Data Mining

© Marcus Hudec

Predictive Modelling (4)Vorhersage der Eintrittswahrscheinlichkeit Vorhersage der Eintrittswahrscheinlichkeit von Ereignissen von Ereignissen

Kaufwahrscheinlichkeiten, Kaufwahrscheinlichkeiten, ChurnChurn--WahrscheinlichkeitenWahrscheinlichkeitenMethoden des Methoden des SupervisedSupervised learninglearning

Logistische Regression, EntscheidungsbLogistische Regression, Entscheidungsbääume, ume, Neuronale NetzeNeuronale Netze

Page 11: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

11

21

Einführung in das Data Mining

© Marcus Hudec

Predictive Modelling (5)

Vorhersage des Zeitpunktes von Ereignissen Vorhersage des Zeitpunktes von Ereignissen ((survivalsurvival analysisanalysis))

FolgeabschlFolgeabschlüüsse bei abreifenden Produkten, sse bei abreifenden Produkten, Optimierung der KundenOptimierung der Kundenüüberleitung berleitung Methoden der Methoden der SurvivalSurvival AnalysisAnalysis

CoxCox--Modell, Kaplan MeierModell, Kaplan Meier

Prognose von ErsatzzyklenPrognose von ErsatzzyklenWie lange dauert es vom ersten Wie lange dauert es vom ersten ClickClick auf auf einen eeinen e--Shop bis der Kunde zum KShop bis der Kunde zum Kääufer wirdufer wird

22

Einführung in das Data Mining

© Marcus Hudec

Anwendung im Direct Marketing

Page 12: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

12

23

Einführung in das Data Mining

© Marcus Hudec

Zahlen zum vorigen Beispiel

100.000 Kunden100.000 Kunden1.000 Responses zum konkreten Anbot1.000 Responses zum konkreten AnbotDirectDirect Mail an die Mail an die „„wahrscheinlichstenwahrscheinlichsten““10% (10.000) erreicht bereits 40% der 10% (10.000) erreicht bereits 40% der ZielpopulationZielpopulationDirectDirect Mail an die Mail an die „„wahrscheinlichstenwahrscheinlichsten““40% (40.000) erreicht bereits 80% der 40% (40.000) erreicht bereits 80% der ZielpopulationZielpopulation

24

Einführung in das Data Mining

© Marcus Hudec

98% der Prognosen sind falsch

96% der Prognosen sind falsch

Page 13: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

13

25

Einführung in das Data Mining

© Marcus Hudec

One-to-One Marketing

Die Herausforderung des heutigen Marktes Die Herausforderung des heutigen Marktes besteht darin, die im wachsenden Mabesteht darin, die im wachsenden Maßße e heterogenen heterogenen WWüünsche und Bednsche und Bedüürfnisse rfnisse jedes Einzelnen zu verstehen und zu jedes Einzelnen zu verstehen und zu erferfüüllenllen..Segmentierung des Markts in Segmentierung des Markts in Kleinstsegmente stellt enorme Kleinstsegmente stellt enorme Anforderungen, denen die in der Praxis des Anforderungen, denen die in der Praxis des DataData MiningMining heute generierten heute generierten Prognosemodelle hPrognosemodelle hääufig nicht gerecht ufig nicht gerecht werden kwerden köönnennnen

26

Einführung in das Data Mining

© Marcus Hudec

Vereinfachte Sicht des Data Mining

Historische Daten

Data MiningSoftware

Prognose

Produktions-planungbzw.Lagerhaltung

Vertriebs/Marketing-Aktivitäten

Page 14: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

14

27

Einführung in das Data Mining

© Marcus Hudec

Der Kreislauf des Data Mining

Geschäfts-prozesse

Daten

ErgebnisseMarketing Aktivitäten

28

Einführung in das Data Mining

© Marcus Hudec

Der Kreislauf des Data Mining

Geschäfts-prozesse

Daten

ErgebnisseMarketing Aktivitäten

Daten-Modellierung

Page 15: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

15

29

Einführung in das Data Mining

© Marcus Hudec

Der Kreislauf des Data Mining

Geschäfts-prozesse

Daten

ErgebnisseMarketing Aktivitäten

PredictiveModelling

30

Einführung in das Data Mining

© Marcus Hudec

Der Kreislauf des Data Mining

Geschäfts-prozesse

Daten

ErgebnisseMarketing Aktivitäten

Interpretation

Verwertung

Page 16: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

16

31

Einführung in das Data Mining

© Marcus Hudec

Eckpunkte einer profitabler Data MiningStrategie1.1. Definition des Problemfeldes (Business Definition des Problemfeldes (Business

UnderstandingUnderstanding))2.2. Schaffung eines entsprechenden Schaffung eines entsprechenden ITIT--

UmfeldesUmfeldes3.3. ExplorativeExplorative Datenanalyse (Data Datenanalyse (Data

UnderstandingUnderstanding))4.4. Datenaufbereitung (Data Datenaufbereitung (Data PreparationPreparation))5.5. ModellierungModellierung6.6. ModellevaluationModellevaluation7.7. Anwendung & Anwendung & MonitoringMonitoring ((DeploymentDeployment))

32

Einführung in das Data Mining

© Marcus Hudec

Methodenformate

Data Data MiningMining Methodenformate (z.B. CRISPMethodenformate (z.B. CRISP--DM) bieten Anhaltspunkte fDM) bieten Anhaltspunkte füür die r die Vorgehensweise Vorgehensweise CRISPCRISP--DM DM CCross ross IIndustryndustry SStandard tandard PProcessrocessforfor DDataata MMininginingEffiziente Projektorganisation von Effiziente Projektorganisation von DataDataMiningMining ProjektenProjektenHerstellerunabhHerstellerunabhäängigkeitngigkeitwww.crispwww.crisp--dm.orgdm.org

Page 17: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

17

33

Einführung in das Data Mining

© Marcus Hudec

CRISP-DM

Robustes, allgemeines Robustes, allgemeines ModellModell

ZuverlZuverläässiger und ssiger und wiederholbarer Prozess wiederholbarer Prozess

KostenKosten-- und Zeitreduktionund Zeitreduktion

UnterstUnterstüützung bei tzung bei DokumentationDokumentation

UnterstUnterstüützung bei tzung bei WissensmanagementWissensmanagement

34

Einführung in das Data Mining

© Marcus Hudec

Beispiel-Stream von Clementine

Page 18: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

18

35

Einführung in das Data Mining

© Marcus Hudec

Data Mining im Unternehmen

Data Data MiningMining startet in einem startet in einem Unternehmen meist aus einer konkreten Unternehmen meist aus einer konkreten Fragestellung als kleines ProjektFragestellung als kleines ProjektData Mining is a journey Data Mining is a journey –– an ongoing an ongoing initiative initiative –– not a projectnot a project

SchaffungSchaffung organisatorischer organisatorischer Rahmenbedingungen fRahmenbedingungen füür r effiziente Data effiziente Data MiningMining -- ProzesseProzesse

36

Einführung in das Data Mining

© Marcus Hudec

Data Mining and Business Intelligence

Increasing potentialto supportbusiness decisions End User

BusinessAnalyst

DataAnalyst

DBA

MakingDecisions

Data PresentationVisualization Techniques

Data MiningInformation Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data SourcesPaper, Files, Information Providers, Database Systems, OLTP

Page 19: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

19

37

Einführung in das Data Mining

© Marcus Hudec

Softwareanbieter im Data Mining

38

Einführung in das Data Mining

© Marcus Hudec

3 heroische Konventionen in der Praxis

Ein einmal entwickeltes Prognosemodell kann Ein einmal entwickeltes Prognosemodell kann routinemroutinemäßäßig angewendet werdenig angewendet werdenDie Anwender des Modells verstehen die Die Anwender des Modells verstehen die SpezifikaSpezifika der Modellierung und setzen das der Modellierung und setzen das Modell korrekt einModell korrekt einIst die Population auf die das Modell Ist die Population auf die das Modell angewendet wird mit jener vergleichbar, die angewendet wird mit jener vergleichbar, die ffüür die Modellentwicklung herangezogen r die Modellentwicklung herangezogen wurde?wurde?

Page 20: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

20

39

Einführung in das Data Mining

© Marcus Hudec

Annahme struktureller Konstanz

Handlungsrelevante Aussagen kHandlungsrelevante Aussagen köönnen nnen nur aus Daten gewonnen werden, nur aus Daten gewonnen werden, welche die aktuellen und zukwelche die aktuellen und zuküünftigen nftigen MarktverhMarktverhäältnisse widerspiegeln.ltnisse widerspiegeln.

UnverUnveräänderte Marktstrukturennderte MarktstrukturenKonstante KundenKonstante Kunden-- und und WettbewerbsverhaltensweisenWettbewerbsverhaltensweisenHippnerHippner, Wilde , Wilde „„Der Prozess des Der Prozess des DataData MiningMining im Marketingim Marketing““

40

Einführung in das Data Mining

© Marcus Hudec

Kurzlebigkeit von Data Mining Ergebnissen

Ergebnisse des Ergebnisse des DataData MiningMining sind in der sind in der Praxis nur kurzfristig gPraxis nur kurzfristig güültigltig

Entwickelte MEntwickelte Määrkte sind extrem dynamischrkte sind extrem dynamischKundenverhalten hKundenverhalten häängt in einer komplexen ngt in einer komplexen Weise von einer Vielzahl von Weise von einer Vielzahl von Einflussfaktoren abEinflussfaktoren abKundenverhalten unterliegt TechnologieKundenverhalten unterliegt Technologie--und Modetrendsund Modetrends

Page 21: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

21

41

Einführung in das Data Mining

© Marcus Hudec

Self Destroying Prophecy

Aus den Ergebnissen abgeleitete Aus den Ergebnissen abgeleitete MarketingaktivitMarketingaktivitääten verten veräändern die ndern die datengenerierendendatengenerierenden ProzesseProzesseErschwert eine objektive Bewertung von Erschwert eine objektive Bewertung von Modellen, die Modellen, die DataData BasedBased Marketing Marketing ––Strategien bestimmenStrategien bestimmenProblem: Identifikation guter ModelleProblem: Identifikation guter Modelle

42

Einführung in das Data Mining

© Marcus Hudec

Metriken zur Erfolgsmessung

FrFrüühzeitige Definition von Kennzahlen hzeitige Definition von Kennzahlen zur Messung des Erfolgeszur Messung des ErfolgesMaMaßßnahmen zur Umsetzung von nahmen zur Umsetzung von ErkenntnissenErkenntnissenTransparente Kommunikation der Transparente Kommunikation der Modellergebnisse im UnternehmenModellergebnisse im Unternehmen

Laufende Laufende ÜÜberwachung derberwachung derModelleffizienzModelleffizienz

Page 22: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

22

43

Einführung in das Data Mining

© Marcus Hudec

Fachübergreifende Kooperation

Erfolgreiches Data Erfolgreiches Data MiningMining setzt die setzt die Kooperation von Kooperation von DataData MiningMining Experten mit Experten mit Informatikverantwortlichen, Informatikverantwortlichen, Fachleuten mit Wissen Fachleuten mit Wissen üüber die ber die GeschGeschääftsprozesse und ftsprozesse und TopTop--EntscheidungstrEntscheidungsträägern im gern im Unternehmen vorausUnternehmen voraus

44

Einführung in das Data Mining

© Marcus Hudec

Statistik versus Data Mining

„„LearningLearning fromfrom datadata““„„TurningTurning datadata intointo informationinformation““

Wodurch unterscheiden sich die Wodurch unterscheiden sich die LLöösungsanssungsansäätze des Data tze des Data MiningMining von von klassischen statistischen Methoden ?klassischen statistischen Methoden ?

Page 23: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

23

45

Einführung in das Data Mining

© Marcus Hudec

Unterschiede im methodologischen Ansatz (1)

StatistikStatistikprprääzise formuliertes zise formuliertes spezifisches spezifisches SachproblemSachproblemDatenerhebung oft Datenerhebung oft forschungsorientiertforschungsorientiert

Konzept von Konzept von Stichprobe/Stichprobe/GrundGrund--gesamtheitgesamtheit

Data Data MiningMiningunscharf formulierte unscharf formulierte globale Aufgabenstellungglobale Aufgabenstellung

Datenerhebung durch Datenerhebung durch Aufzeichnung von Aufzeichnung von Transaktionen in Transaktionen in operativen Systemen operativen Systemen Inhalt einer DatenbankInhalt einer Datenbank(Data (Data WarehousingWarehousing))

46

Einführung in das Data Mining

© Marcus Hudec

Unterschiede im methodologischen Ansatz (2)

StatistikStatistikVersuchsplanungVersuchsplanung(Homogenisierung via (Homogenisierung via inclusioninclusion//exclusionexclusioncriteriacriteria; ; stratificationstratification; ; randomisationrandomisation))einfache Datenstruktur einfache Datenstruktur (Datenmatrix)(Datenmatrix)Hohe DatenqualitHohe DatenqualitäättÜÜberschaubare berschaubare DatenbestDatenbestäändende

Data Data MiningMiningkomplexes komplexes Beziehungsgeflecht von Beziehungsgeflecht von Ursache und WirkungUrsache und Wirkung

komplexe komplexe DatenstrukturenDatenstrukturenSchlechte DatenqualitSchlechte DatenqualitäättExtrem groExtrem großße e DatenbestDatenbestäändende

Page 24: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

24

47

Einführung in das Data Mining

© Marcus Hudec

Unterschiede im methodologischen Ansatz (3)

StatistikStatistikMathematikMathematikModellModellTheoretische Analyse Theoretische Analyse von von OptimalitOptimalitäätsts--eigenschafteneigenschaften

Data Data MiningMiningInformatikInformatikAlgorithmusAlgorithmusHeuristik; Heuristik; BenchmarkingBenchmarkingmit Real Life Datamit Real Life Data

48

Einführung in das Data Mining

© Marcus Hudec

Herausforderung an die Statistik:

extrem groextrem großße Datenmengene Datenmengen erfordernerfordernAutomatische ModellierungstechnikenAutomatische Modellierungstechniken((automaticautomatic datadata analysisanalysis))

The statistician's tendency to The statistician's tendency to avoid complete automation out of the respect or out of the respect or the challenges of the data, and the historical the challenges of the data, and the historical emphasis on models with interpretable emphasis on models with interpretable structure, has led that community to focus on structure, has led that community to focus on problems with a more manageable number of problems with a more manageable number of variables than may be encountered in Data variables than may be encountered in Data MiningMining..ElderElder & & PregibonPregibon

Page 25: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

25

49

Einführung in das Data Mining

© Marcus Hudec

Algorithmen verdrängen Modelle

The key role of programs has lead to an The key role of programs has lead to an increased emphasis on algorithms in increased emphasis on algorithms in data mining, in contrast to the emphasis data mining, in contrast to the emphasis on models in statistics. The idea is that on models in statistics. The idea is that one applies the algorithm to data sets, one applies the algorithm to data sets, learning how it behaves and what learning how it behaves and what properties it has, regardless of any properties it has, regardless of any notion of an underlying model (or notion of an underlying model (or pattern) which it might be building.pattern) which it might be building.(Hand 1999).(Hand 1999).

50

Einführung in das Data Mining

© Marcus Hudec

Konvergenz von Algorithmen ?

An An importantimportant featurefeature of an of an estimatorestimator isisconsistencyconsistency; in ; in thethe limitlimit, as , as thethe samplesamplesizesize increasesincreases withoutwithout boundbound, , estimatesestimatesshouldshould almostalmost certainlycertainly convergeconverge to to thethecorrectcorrect valuevalue of of whateverwhatever isis beingbeingestimatedestimated..HeuristicHeuristic proceduresprocedures, , whichwhich aboundabound in in machinemachine learninglearning, , havehave no no guaranteeguarantee of of everever convergingconverging to to thethe right right answeranswer..((GlymourGlymour et al. 1996).et al. 1996).

Page 26: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

26

51

Einführung in das Data Mining

© Marcus Hudec

Klassischer AnalyseprozessModellwahl integrativer Teil des Modellwahl integrativer Teil des wissenschaftlichen Analyseprozess wissenschaftlichen Analyseprozess (iterativer Prozess abh(iterativer Prozess abhäängig von ngig von Daten/Ergebnissen)Daten/Ergebnissen)ModellwahlModellwahl

Modellierung des datengenerierenden ProzessesModellierung des datengenerierenden ProzessesBehandlung extremer WerteBehandlung extremer WerteVariablenselektionVariablenselektion

ModelldiagnoseModelldiagnoseGoodnessGoodness of fit; Residuenanalyse; of fit; Residuenanalyse; influentialinfluentialobservationsobservationsPredictivePredictive accuracyaccuracy ((crosscross--validationvalidation))

52

Einführung in das Data Mining

© Marcus Hudec

Data Mining Analyseprozess„„off off thethe shelfshelf proceduresprocedures““Anspruch: Algorithmus liefert Anspruch: Algorithmus liefert „„gutegute““ErgebnisseErgebnisseFlexibler AlgorithmusFlexibler Algorithmus

GroGroßße Datenmengene DatenmengenFehlerbehaftete DatenFehlerbehaftete DatenFehlende WerteFehlende WerteUnterschiedliche SkalenniveausUnterschiedliche SkalenniveausInvarianzeigenschaftenInvarianzeigenschaftenFiltern irrelevanter InputsFiltern irrelevanter InputsInterpretierbarkeitInterpretierbarkeit

Page 27: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

27

53

Einführung in das Data Mining

© Marcus Hudec

Grenzen des Data Mining (I)

TheThe major major barrierbarrier in in obtainingobtaining highhigh--qualityqualityknowledgeknowledge fromfrom datadata isis duedue to to thethe limitationslimitationsof of thethe datadata itselfitselfMMöögliche Datenquellen:gliche Datenquellen:

operative Systeme, die die Durchfoperative Systeme, die die Durchfüührung hrung von geschvon geschääftlichen Transaktionen ftlichen Transaktionen unterstunterstüützentzenNichtoperationale Daten Nichtoperationale Daten (z.B. wirtschaftliche Rahmenbedingungen)(z.B. wirtschaftliche Rahmenbedingungen)MetaMeta--Daten Daten HintergrundwissenHintergrundwissen

54

Einführung in das Data Mining

© Marcus Hudec

Schwachstellen der Datenbasis

Mangel an ReprMangel an ReprääsentativitsentativitäättFehlen wichtiger VariablenFehlen wichtiger VariablenFehlende Versuchsplanung ==> Fehlende Versuchsplanung ==> komplexe Korrelationsstrukturen komplexe Korrelationsstrukturen ((confoundingconfounding))Fehlende WerteFehlende WerteVerzerrte DatenVerzerrte DatenAlterungsprozess der gesammelten Alterungsprozess der gesammelten DatenDaten

Page 28: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

28

55

Einführung in das Data Mining

© Marcus Hudec

Grenzen des Data Mining (II) - AussagekraftData Data MiningMining ist ein ist ein explorativesexploratives Verfahren, Verfahren, dessen Ergebnisse mit grodessen Ergebnisse mit großßer Vorsicht zu er Vorsicht zu interpretieren sind.interpretieren sind.Bei Data Bei Data MiningMining geht es nicht primgeht es nicht primäär darum, r darum, "wahre Gesetzm"wahre Gesetzmäßäßigkeiten" igkeiten" üüber den ber den datengenerierenden Prozess aufzuzeigen.datengenerierenden Prozess aufzuzeigen.Im Vordergrund steht, ob die Ergebnisse fIm Vordergrund steht, ob die Ergebnisse füür r den intendierten Zweck brauchbar bzw. den intendierten Zweck brauchbar bzw. praxistauglich sind.praxistauglich sind.

OverfittingOverfittingSignifikanz kleiner irrelevanter AspekteSignifikanz kleiner irrelevanter Aspekte

56

Einführung in das Data Mining

© Marcus Hudec

Grenzen des Data Mining (III) - AussagekraftEin weiteres Problem kann im Ein weiteres Problem kann im ÜÜberschberschäätzen der tzen der Allmacht des Algorithmus liegen. Es besteht Allmacht des Algorithmus liegen. Es besteht zweifellos die Gefahr, dass der Anwender jegliche zweifellos die Gefahr, dass der Anwender jegliche Beziehung zu den Daten und Ihrer Semantik verliert. Beziehung zu den Daten und Ihrer Semantik verliert. Der komplexe Algorithmus wird fDer komplexe Algorithmus wird füür den Anwender zur r den Anwender zur undurchschaubaren Blackundurchschaubaren Black--Box, die ihm von den Box, die ihm von den Daten trennt. Das menschliche Daten trennt. Das menschliche ÜÜberprberprüüfen von fen von Modellannahmen entfModellannahmen entfäällt und die vom Algorithmus llt und die vom Algorithmus generierten Ergebnisse, welche oft nur eines von generierten Ergebnisse, welche oft nur eines von vielen mvielen möögliche Interpretationsszenarien eines gliche Interpretationsszenarien eines komplexen Datensatzes darstellen, werden komplexen Datensatzes darstellen, werden ffäälschlicherweise als erwiesenes Faktum angesehen.lschlicherweise als erwiesenes Faktum angesehen.

Page 29: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

29

57

Einführung in das Data Mining

© Marcus Hudec

Grenzen des Data Mining (IV) - AussagekraftHHääufig erlauben empirischen Daten keine ufig erlauben empirischen Daten keine eindeutige Entscheidung zwischen in bezug eindeutige Entscheidung zwischen in bezug auf die den Algorithmus steuernden Kriterien auf die den Algorithmus steuernden Kriterien nahezu nahezu ääquivalenten Modellen, welche quivalenten Modellen, welche jedoch eine unterschiedliche semantische jedoch eine unterschiedliche semantische Interpretation aufweisen.Interpretation aufweisen.

SensitivitSensitivitäätsanalysen und tsanalysen und VisualisierungsVisualisierungs--technikentechniken werden hier zum unverzichtbaren werden hier zum unverzichtbaren Instrument, will man das Auffinden von Instrument, will man das Auffinden von Artefakten vermeidenArtefakten vermeiden..

58

Einführung in das Data Mining

© Marcus Hudec

Grenzen des Data Mining (V) - Privacy

Angst vor der missbrAngst vor der missbrääuchlichen uchlichen Verwendung personenbezogener Daten Verwendung personenbezogener Daten kann das allgemeine Klima fkann das allgemeine Klima füür r statistische Erhebungen entscheidend statistische Erhebungen entscheidend beeintrbeeinträächtigen chtigen Strikte Einhaltung ethischer Strikte Einhaltung ethischer Grundprinzipien Grundprinzipien

Page 30: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

30

59

Einführung in das Data Mining

© Marcus Hudec

FALLBEISPIELE

60

Einführung in das Data Mining

© Marcus Hudec

Analyse eines VersicherungsbestandesSchadenfrequenz in den Gruppen nach Scorewert (1-jährig) - alle Haftpflichverträge

0%

5%

10%

15%

20%

25%

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Gruppe

Schä

den

in P

roze

nt

Page 31: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

31

61

Einführung in das Data Mining

© Marcus Hudec

Seit 2003 wird bei einer großen österreichischen Versicherung das Annahmeverhalten der Kunden bei früheren Aktionen für die gezielte Kundenauswahl mittels Methoden des Data Mining herangezogen.

Direct mail Kampagne - Annahmequote in %

4,7 4,4

8,2

12,2

0

2

4

6

8

10

12

14

2000* 2002 2003 2004*2001 aufgrund Umstellung Verw altungssystem keine DM-Aktion

Anwendung Versicherungsbranche

62

Einführung in das Data Mining

© Marcus Hudec

Praxisbeispiel: CHURN-Analyse

1,0,8,5,30,0

1,0

,8

,5

,3

0,0

AUC = 0,821

Bei Kontaktierung von 30% der Kunden können 80% der abwanderungs-gefährdeten Kunden erreicht werden.

Echtdaten Mobilfunkanbieter Österreich

Page 32: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

32

63

Einführung in das Data Mining

© Marcus Hudec

Entscheidungskriterien für Selektion

64

Einführung in das Data Mining

© Marcus Hudec

Entscheidungskriterien für Selektion

Selektion: maximale

Responsequote

Page 33: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

33

65

Einführung in das Data Mining

© Marcus Hudec

Entscheidungskriterien für Selektion

ProfitmaximierendeSelektion

66

Einführung in das Data Mining

© Marcus Hudec

Reichweiten-maximierende und

kostenneutrale Selektion

Entscheidungskriterien für Selektion

Page 34: Methoden der Datenanalyse AI-basierte Decision Support Systemehomepage.univie.ac.at/marcus.hudec/Lehre/WS 2006/Methoden DA/Data... · ¾Artificial Intelligence ... Data Mining and

34

67

Einführung in das Data Mining

© Marcus Hudec

OptimaleSelektion unter

Berücksichtigungbeider Größen

Entscheidungskriterien für Selektion

68

Einführung in das Data Mining

© Marcus Hudec

Executive Summary

Der unreflektierte Einsatz moderner Der unreflektierte Einsatz moderner DataDataMiningMining Software alleine bietet keine wie Software alleine bietet keine wie immer geartete Garantie fimmer geartete Garantie füür den Erfolgr den ErfolgOhne den intelligenten Einsatz moderner Ohne den intelligenten Einsatz moderner DataData MiningMining Verfahren nach einem Verfahren nach einem „„Best Best PracticePractice StandardStandard““ im analytischen CRM im analytischen CRM werden Unternehmen auf entwickelten stark werden Unternehmen auf entwickelten stark kompetitivenkompetitiven MMäärkten mittelrkten mittel-- bis langfristig bis langfristig massive Wettbewerbsnachteile erleiden.massive Wettbewerbsnachteile erleiden.