21
Business and Data Understanding Business und Data Understanding

Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

  • Upload
    tranque

  • View
    216

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Business und Data Understanding

Page 2: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Gliederung

1. Grundlagen

2. Von Data Warehouse zu Data Mining

3. Das CRISP-DM Referenzmodell

4. Die Phasen Business- und Data Understanding

5. Überblick der weiteren Phasen

6. Neue Entwicklungen und andere Modelle

7. Abschließende Bewertung

Page 3: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

1. GrundlagenEntscheidungen unterstützen heißt Daten ...

• sammeln• aufbereiten• abfragen• auswerten• präsentieren

Data Warehouse (DW) := Datenbank, die strategische Entscheidungen unterstützt, indem sie ...

• umfangreiche und• regelmäßige Auszüge aus• Produktionsdatenbanken• periodenbezogen und• oft aggregiert• Endbenutzern• auch zur ad hoc-Analyse bereit stellt

Page 4: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

DatenbankabfragenDatenbankzugriffe sind idealer Weise flexibel und führen mit geringem Aufwand

zur Formulierung von Abfragen und Analysen

Page 5: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Abfragearten SQL := Structured Query Language (deklarativ)

interaktiv oder in ein Programm eingebettet

QBE := Query by example

OLAP := On Line Analytical Processingermöglichen auch ungeübten Benutzern flexible und mehrdimensionale ad-hoc-Abfragen von analytischen Datenbanken

Page 6: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

2. Von Data Warehouse zu Data Mining

Kurze ZusammenfassungAbfrage und Berichtssprachen wie QBE, SQL standardisiert und mächtig, aber

für gelegentliche Benutzer zu schwierig

OLAP-Werkzeuge hingegen erlauben auch gelegentlichen Benutzern flexible, mehrdimensionale Abfragen

Methoden allerdings eher anfrage-zentriert und von der Analysekomplexität her einfach

Data Mining Werkzeugeerlauben komplexere Analysen

lassen den Benutzer in Massendaten nach verborgenem Wissen "schürfen"

Page 7: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Der Begriff Data Mining

to mine for heißt schürfen nach▼

Data Mining :=nichttriviales, automatisches Schürfen nach Wissen in Massendaten

wobei meist Data Warehouses als Datenlieferanten dienen

steht als Synonym für „Datenmustererkennung“nichttrivial: mit komplexen Methoden aus KI und Statistik (statt der

herkömmlichen Datenbankwerkzeug und nicht nur mit SQL, OLAP und Berichtsgeneratoren)

Massendaten: z.B. Daten über Prospekt-Empfänger, oder aus Direct Mailing Kampagne (Analyseziel dann Vorhersage jener Adressaten, die positiv auf Kampagne reagieren)

Page 8: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Data Warehouse

▼Daten

· relevant

· genügend

· zuverlässig

Data Mining

▲Hypothesen über ...

· wichtige Attribute

· Beziehungen

Betriebliches Fachwissen

Page 9: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

3. Das CRISP-DM ReferenzmodellProjekt und Konsortium

Projekt (Cross Industry Standard Process for Data Mining) im Juli 1997 offiziell mit der Bildung des Konsortiums initiiert

Initiatoren, die zusammen eine Lösung für das Fehlen einer gut definierten und dokumentierten Methode für Data Mining suchten, sind: NCR Dänemark (u.a. Lieferant von Datawarehousing Lösungen) Der DaimlerChrysler Konzern (damals DaimlerBenz; Unternehmen mitBeteiligungen in u.a. der Autoindustrie, Luft- und Raumfahrttechnologie und Telekom)erweitert um die englische „Integral Solutions Limited“ (ISL), das Anbieter des Data Mining Pakets Clementine (1994) und durch eine Übernahme seit Januar 1999 Teil von SPSS ist„OHRA Versicherungen und Bank Gruppe“, Niederlande

Das Projekt CRISP-DM wurde teilweise subventioniert von der Europäischen Kommission im Rahmen des ESPRIT-Programms zur Förderung von technologischen Entwicklungen in Europa (bis Mitte 1999)

Page 10: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Das Prozessmodell

http://www.crisp-dm.org/Process/index.htm

Page 11: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Aus: „Zwischen Goldesel und Sternschnuppe“, SPSS in der Praxis, M. Feldkircher, 2002

Page 12: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

4. Die Phasen Business- und Data UnderstandingPhase 1 Business Understanding

Page 13: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Phase 2 Data Understanding

Page 14: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

5. Überblick der weiteren Phasen

Data Preparation- deckt alle Tätigkeiten zur Konstruktion einer endgültigen Datenmenge

(Daten, die zur Weiterverarbeitung in die Modell-Werkzeuge gesteckt werden) aus den Roh-Daten ab

- Aufgaben dieser Phase können mehrmals und auch in variabler Reihenfolge abgearbeitet werden

- Die Aufgaben umfassen Tabellen- , Records- und Attribut-Selekion ebenso wie Transformation und "Säuberung" der Daten für andere Modell-Werkzeuge

Modeling- hier werden diverse Modellierungs-Techniken ausgewählt und angewendet,

deren Parameter optimales Werten angepasst werden- typischer Weise gibt es immer mehrere Techniken für den selben Typ eines

Data Mining-Problems- einige Techniken haben spezielle Anforderungen an die Daten- deshalb ist ein Schritt zurück in die Phase Data Preparation oft notwendig

Page 15: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Evaluation- Grundlage: bisher erzeugte Modelle mit hoher Qualität- nochmaliges sehr gründliches Bewerten des bisherigen Modells (erste

Schritte zur Erzeugung des Modells nachzuprüfen, um sicher zu sein, dass es die betriebswirtschaftlichen Ziele tatsächlich erreicht)

- zentrales Ziel: feststellen, ob es ein wichtiges betriebs-wirtschaftliches Problem gibt, das bisher noch nicht zufriedenstellend berücksichtigt wurde

- am Ende dieser Phase: Abwägung des Nutzens der DM-Ergebnisse

Deployment- Erzeugung eines Modells ist im Allgemeinen nicht das Ende des Projekts- Selbst wenn das Ziel war, die Kenntnisse über die Daten zu vertiefen muß

das erlangte Wissen aufgearbeitet und dem Kunden so präsentiert werden, dass dieser es problemlos verwenden kann

- diese Entwicklungsphase kann in der Erstellung eines simpel Berichts oder in der komplexen Implementierung eines wiederholbaren Data Mining Prozesses in der gesamten Unternehmung bestehen

- Um effizient Nutzen aus dem Modell ziehen zu können, ist es notwendig, den Kunden bestmöglich in die Entwicklung mit einzubeziehen

Page 16: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

6. Neue Entwicklungen und andere ModelleAndere systematische Ansätze zum Thema Data Mining sind von vielen

Beratungsunternehmen entwickelt worden (besonders, um Prognose-Werkzeuge bereitzustellen)

SPSS bedient sich der „5 A‘s“Assess Access Analyze Act Automate

SAS benutzt „SEMMA“

Sample ExploreModifyModelAssess

Page 17: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

SAS Rapid Warehousing Methodology- gewährleistet einen schnellen Return-On-Investment (ROI) bei Data-

Warehouse-Implementierungen

- Das Data Warehouse wird in einem iterativen Prozess implementiert (Erfahrungen aus einzelnen Projektabschnitten fließen in die nachfolgenden Phasen ein → optimale Erfolgskontrolle)

- Existierende Anwendungen können problemlos erweitert und neuen Fragestellungen angepasst werden

http://www.metagroup.de/studien/2002/businessintelligence/profile/sas-light.pdf

Page 18: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

OgilvyOne worldwidegehört in Deutschland zu den Top 3 CRM/Dialogmarketing-Agenturen und fügt den sechs Phasen des klassischen CRISP-Modells mit dem Monitoring noch eine weitere hinzu

Aus: „Zwischen Goldesel und Sternschnuppe“, SPSS in der Praxis, M. Feldkircher, 2002

Page 19: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Two Crows Corporation

The Two Crows Process Model

Grundlegende Schritte des Modells, das sich am CRISP-DM orientiert, sind:

1. Define Business Problem2. Build DM Database3. Explore Data4. Prepare Data for modeling5. Build Model6. Evaluate Model7. Deploy Model and results

Page 20: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

7. Abschließende BewertungVom CRISP-Standard versprachen sich die Initiatoren folgende Vorteile:

- Data Mining Ergebnisse schließen besser an die Business Problematik an;

- Produktivitätsverbesserung bei Systemanalytikern durch vorab definierte Schritte und Wiederverwendung von Kenntnissen;

- ein zuverlässiger Prozess durch bessere Vorhersehbarkeit & Beherrschbarkeit

- ein wiederholbarer Prozess durch das Festlegen von Schritten;

- schnelleres Data Mining mit Hilfe präziser Methoden

Erfahrungen:Vorteil von CRISP-DM:

bessere Anschluß an die Business Problematik, die Zuverlässigkeit und Wiederholbarkeit des Prozesses und die Wiederverwendung von Kenntnissen

DM Projekte immer zum größten Teil Menschenwerk (→ Qualitätsabhängigkeit), aber große Hilfe, wenn Unterstützung durch eine gute und strukturierte Methode vorhanden

Page 21: Business und Data Understanding - mathematik.uni-ulm.de · Business and Data Understanding Datenbankabfragen Datenbankzugriffe sind idealer Weise flexibel und führen mit geringem

Business and Data Understanding

Ergebnis einer Umfrage aus dem Jahr 2002

http://www.kdnuggets.com/polls/2002/methodology.htm