44
1 Datenbanksysteme SS 2007 Frank Köster (Oliver Vornberger) Institut für Informatik Universität Osnabrück

Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Embed Size (px)

Citation preview

Page 1: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

1

Datenbanksysteme SS 2007

Frank Köster(Oliver Vornberger)

Institut für InformatikUniversität Osnabrück

Page 2: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Kapitel 16:Data Warehousing und

Knowledge Discovery in Databases

Page 3: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 31

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DEFINITIONEN & BEGRIFFEKlassische Definition – Data Warehouse (DWH)

"A Data Warehouse is a subject-oriented, integrated, non-volatile, and time-variant collection of data in support of managements decisions“(W.H. Inmon, 1996)

Definition – Data-Warehouse-System (DWS)

“Data-Warehouse-System: Informationssystem, bestehend aus allenfür den Data-Warehouse-Prozess notwendigen Komponenten. Dies sinddie Komponenten des Datenbeschaffungsbereichs und der Analyse, der Metadatenmanager, der Data-Warehouse-Manager und die Daten-banken Basisdatenbank, Data Warehouse und Repositorium.“(Bauer und Günzel, 2001 – Seite 516)

Weitere Begriffe im DWS-Kontext

Data Warehousing bezeichnet den Data-Warehouse-Prozess … d.h. einen Prozess, der alle Schritte der Datenbewirtschaftung und Daten-nutzung im DWS-Kontext umfasst.

Page 4: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 41

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur(vgl. Bauer und Günzel, 2001)

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse

Extraktion Laden Laden Analyse

Transformation

Monitor

Data-Warehouse-Manager

Metadaten-Manager

RepositoryDatenflussKontrollfluss Data-Warehouse-System

Bereich der Datenbeschaffung

Page 5: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 51

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Phasen des Data Warehousing I/II (vgl. Bauer und Günzel, 2001)

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse

Extraktion Laden Laden Analyse

Transformation

Monitor

Data-Warehouse-Manager

Metadaten-Manager

RepositoryDatenflussKontrollfluss Data-Warehouse-System

Bereich der Datenbeschaffung

1

2

3

4 5 6

Page 6: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 61

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Phasen des Data Warehousing II/II(vgl. Bauer und Günzel, 2001)

→ Phasen des Data Warehousing

1. Überwachung der Quellen auf Änderungen durch Monitore

2. Kopieren der relevanten Daten mittels Extraktion in (temporären)Arbeitsbereich

3. Transformation der Daten im Arbeitsbereich (Datenbereinigung bzw. Qualitässicherung und Datenintegration)

4. Kopieren der Daten in integrierte Basisdatenbank als Grundlage für verschiedene Analysen und Quelle für DWH(s)

5. Laden der Daten in DWH(s)

6. Analyse – Operationen auf Daten des DWH

Data-Warehouse-Manager… zur Steuerung …

Page 7: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 71

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Data-Warehouse-Manager I/II(vgl. Bauer und Günzel, 2001)

→ Zentrale Komponente eines Data-Warehouse-Systems

→ Initiierung, Steuerung und Überwachung der einzelnen Prozesse –Kontrolle des Data-Warehouse-Prozesses

→ Initiierung des Datenbeschaffungsprozesses→ in regelm. Zeitabständen – jede Nacht, am Wochenende …→ bei Änderung einer Quelle→ auf explizites Verlangen eines Nutzers (Administrators)

Starten der Datenextraktion aus Quellen und Übertragung in Arbeitsbereich des DWS – später mehr hierzu

→ Nach Auslösen des Ladeprozesses→ Überwachung der weiteren Schritte (Bereinigung, Integration …)→ Koordination der Verarbeitungsreihenfolge

Page 8: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 81

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Data-Warehouse-Manager II/II(vgl. Bauer und Günzel, 2001)

→ Im Fehlerfall→ Dokumentation von Fehlern→ Wiederanlaufmechanismen

→ Zugriff auf Metadaten aus dem Repository zur …→ Steuerung der Abläufe → insbesondere Parametrisierung involvierter Komponenten

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse

Extraktion Laden Laden Analyse

Transformation

Monitor

Data-Warehouse-Manager

Bereich der Datenbeschaffung

Page 9: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 91

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen I/III(vgl. Bauer und Günzel, 2001)

→ Lieferanten der Daten und Metadaten für das DWH

→ gehören selbst nicht zum DWS

→ können intern (z.B. die Daten eines Unternehmens selbst) oder extern (z.B. Internet) sein

→ heterogen bzgl. Struktur, Inhalt und Schnittstellen – DBen, Dateien, Internet-Seiten ...)

→ Auswahl der Quellen und die Qualität der Daten ist von besonderer Bedeutung

→ Faktoren bei der Quellenauswahl (siehe hierzu auch Folien 11 und 12)

→ Zweck des DWH bzw. DWS

→ Qualität der Quelldaten ...

→ Verfügbarkeit – rechtlich, organisatorisch, technisch, zeitlich

→ Preis für Erwerb der Daten – speziell bei externen Quellen

Page 10: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 101

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen II/III(vgl. Bauer und Günzel, 2001)

→ Kriterien zur Klassifikation von Datenquellen

→ Herkunft – intern, extern

→ Zeit – aktuell, historisch

→ Nutzungsebene – Primärdaten, Metadaten

→ Inhalt – Zahl, Zeichenkette, Grafik, Dokument …

→ Darstellung – numerisch, alphanumerisch, BLOB

→ Kodierung – Sprache und Zeichensatz

→ Vertrauen – Grad der Vertrauens- bzw. Glaubwürdigkeit

→ Qualität (siehe folgende Folie)

Page 11: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 111

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Datenquellen III/III(vgl. Bauer und Günzel, 2001)

→ Kriterien zur Einschätzung der Datenqualität einer Quelle

→ Konsistenz – Widerspruchsfreiheit

→ Korrektheit – Übereinstimmung mit der Realität

→ Vollständigkeit – z.B. keine fehlenden Werte oder Attribute

→ Genauigkeit – z.B. Anzahl der Nachkommastellen

→ Granularität – z.B. tages- oder monatsgenaue Daten

→ Zuverlässigkeit & Glaubwürdigkeit – wie etwa Nachvollziehbar-keit der Entstehung der Daten oder die Vertrauenswürdigkeit eines Datenlieferanten

→ Verständlichkeit – insbesondere inhaltliche und technische bzw.strukturelle Adäquatheit für jeweilige Zielgruppe

→ Verwendbarkeit/Relevanz – z.B. geeignetes Format oder Zweckdienlichkeit

Page 12: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 121

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Monitor I/I(vgl. Bauer und Günzel, 2001)

→ Beobachtung der Datenquellen

→ Ziel: Entdecken von Veränderungen in einer Datenquelle

→ i.Allg. existiert ein Monitor pro Quelle

Page 13: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 131

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Arbeitsbereich I/I(vgl. Bauer und Günzel, 2001)

→ Der Arbeitsbereich ist die zentrale Datenhaltungskomponente des Datenbeschaffungsbereichs (engl. staging area)

→ Temporärer Zwischenspeicher zur Datentransformation

→ „Schnittstelle“ zwischen Quellen und Basisdatenbank bzw. DWH

→ Ausführung von (zeitaufwändigen) Transformationen direkt im Arbeitsbereich – bspw. Transformationenen zur Datenbereinigung und -Integration etc.

→ Laden der transformierten Daten in das DWH bzw. die Basis-datenbank erst nach erfolgreichem Abschluss ihrer Trans-formation

→ Vorteile für Quellen und DWH

→ keine Beeinflussung der Quellen oder des DWH→ keine Übernahme fehlerbehafteter Daten in das DWH

Page 14: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 141

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Extraktion I/I(vgl. Bauer und Günzel, 2001)

→ Übertragen der gewünschten Quelldaten in den Arbeitsbereich des DWS

→ Aktivierung ist abhängig von Monitoring-Strategie

→ periodisch→ Ereignisgesteuert – z.B. nach gewisser Anzahl von Änderungen→ auf Anfrage eines Nutzers (Administrators) ⇒ sofortige Extraktion

→ Technische Grundlage

→ Nutzung von Standardschnittstellen zu operativen Systemen – z.B. vielfach ODBC oder JDBC

→ Berücksichtigt i.Allg. Ausnahmebehandlung zur Fortsetzung im Fehlerfall

Page 15: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 151

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Transformation I/I(vgl. Bauer und Günzel, 2001)

→ Vorbereitung und Anpassung der Daten für das Laden in dieBasisdatenbank bzw. das DWH

→ inhaltlich: Daten-/Instanzintegration und Bereinigung→ strukturell: Schemaintegration

→ Überführung aller Daten in ein einheitliches Format

→ Datentypen, Datumsangaben, Maßeinheiten, Kodierungen, Kombination bzw. Separierung von Attributwerten etc.

→ Beseitigung von Verunreinigungen (engl. Data Cleaning bzw. Data Cleansing)

→ fehlerhafte oder fehlende Werte, Redundanzen und veraltete Werte identifizieren und handhaben

Qualitätsanforderungen

Schemaanforderungen

Datenmigration

Datenbereinigung

Page 16: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 161

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Laden I/I(vgl. Bauer und Günzel, 2001)

→ Übertragung der transformierten Daten in die Basisdatenbank bzw. das DWH

→ Technische Grundlage

→ Nutzung spezieller Ladewerkzeuge –z.B. SQL*Loader von Oralce) → Bulk-Laden

→ Historisierung beachten! → Änderung in Quellen dürfen DWH-Daten nicht überschreiben – stattdessen zusätzliches Abspeichern

⇒ Schnelles Laden großer Datenmengen.

Page 17: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 171

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Basisdatenbank I/I(vgl. Bauer und Günzel, 2001)

→ Integrierte (physische) Datenbasis für verschiedene Analysen und Quelle für DWH(s); Basisdatenbank ist i.d.R. allgemeiner als DWH(s)

→ unabhängig von konkreten Analysen – d.h. insbesondere zu-meist noch keine analysespezifische Datenaufbereitung

→ Versorgung des DWH (auch mehrerer DWHs) mit qualitätsge-sicherten Daten

Anmerkung: Die Basisdatenbank …→ wird in der Praxis oft weggelassen→ entspricht Operational Data Store (ODS) nach W.H. Inmon

Page 18: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 181

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Data Warehouse I/I(vgl. Bauer und Günzel, 2001)

→ DB für Analysezwecke – orientiert sich in Struktur und Inhalt an Analysebedürfnissen

→ Grundlage sind oft (relationale) DBen

→ Besonderheiten:→ Unterstützung des Ladeprozesses in das DWH

→ Schnelles Laden großer Datenmengen → Massenlader (bulk loader) unter Umgehung von Mehrbenutzerkoordination und Konsistenzprüfung

→ Unterstützung des Analyseprozesses→ Effiziente Anfrageverarbeitung durch spezielle Indexstrukturen

und Caching

Page 19: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 191

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse I/I(vgl. Bauer und Günzel, 2001)

→ Nutzung der gesammelten Daten in Datenanalysewerkzeugen. Hier-bei kommen i.d.R. verschiedene Werkzeuge zur Navigation/Sichtungund Analyse mit verschiedenen Techniken zum Einsatz.

→ Analysemöglichkeiten sind vielfältig

→ „einfache“ Operationen (z.B. Aggregation, Visualisierung) ... oder auch

→ Online Analytical Processing … oder

→ komplexe statistische Untersuchungen ... bis hin zu

→ Knowledge Discovery in Databases → Data Mining

→ Aufbereitung der Ergebnisse für Weiterverarbeitung bzw. Weitergabe

→ Grundlage für Entscheidungen – praktische Umsetzung

Page 20: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 201

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse – Data Marts I/II (vgl. Bauer und Günzel, 2001)

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse

Extraktion Laden Laden Analyse

Transformation

Monitor

Data-Warehouse-Manager

Metadaten-Manager

RepositoryDatenflussKontrollfluss Data-Warehouse-System

Bereich der DatenbeschaffungData Marts

Page 21: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 211

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Analyse – Data Marts II/II(vgl. Bauer und Günzel, 2001)

→ Konzept zur Bereitstellung einer inhaltlich beschränkten Sicht auf das DWH – z.B. für eine spezielle Abteilung

→ Zweck der Data Marts?

→ Eigenständigkeit, Datenschutz, Lastverteilung, Datenvolumen etc.

Page 22: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 221

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Repository I/I(vgl. Bauer und Günzel, 2001)

→ Speicherung der Metadaten des DWS erfolgt in Repository des DWS

→ Metadaten

→ Informationen, die Aufbau, Wartung und Administration des DWS vereinfachen/ermöglichen und eine wichtige Grund-lage zur Informationsgewinnung darstellen

→ Beispiele

→ Datenbankschemata→ Zugriffsrechte, → Prozessinformationen (Verarbeitungsschritte & Parameter) → ...

Page 23: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 231

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur – Metadaten Manager I/I(vgl. Bauer und Günzel, 2001)

→ Der Metadatenmanager ist die zentrale Instanz im Kontext des Meta-datenmanagements

→ Steuerung der Metadatenverwaltung→ Zugriff, Anfrage und Navigation→ Versions- und Konfigurationsverwaltung

→ Varianten

→ allgemein einsetzbar: erweiterbares Basisschema→ werkzeugspezifisch: fester Teil von Werkzeugen→ Beobachtung in der Praxis: Häufig Integration von bzw. Aus-

tausch zwischen dezentralen Metadatenmanagementsystemen notwendig

Page 24: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 241

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTURDWS-Referenzarchitektur(vgl. Bauer und Günzel, 2001)

Daten-quelle(n)

Arbeits-bereich

Basis-datenbank

DataWarehouse

Extraktion Laden Laden Analyse

Transformation

Monitor

Data-Warehouse-Manager

Metadaten-Manager

RepositoryDatenflussKontrollfluss Data-Warehouse-System

Bereich der Datenbeschaffung

… Wie sieht der Weg zur Instantiierung eines solchen Systems aus?Bleibt die Frage …

Page 25: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 251

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

REFERENZARCHITEKTUR

DWS-Entwurf – … natürlich ein Prozess

sieht vertraut aus

Niemals unterschätzen!

Page 26: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 261

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD & DATA MININGBegriffe – KDD & Data Mining

→ Knowledge Discovery in Databases

„KDD is the nontrivial process of identifying valid, novel, potentiallyuseful, and ultimately understandable patterns in data.“(Fayyad et al., 1996)

→ KDD ist ein interaktiver, mehrstufiger und iterativer Prozess. Ein zentraler Prozessschritt ist dabei das Data Mining.

„[...] data mining – the automatic creation of a model that identifies rele-vant trends and patterns in source data [...]“(Woods & Kyral, 1997)

→ Was sind essentielle Aspekte des Data Mining?→ automatische Verfahren (Interaktion → KDD) → Algorithmen “erkunden“ große/komplexe Datenmengen

→ Data Mining

Page 27: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 271

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD & DATA MININGDer Prozess des KDD – Was passiert bei der Exploration von Daten?

„Exploratory data analysis is detective

work – numerical detec-tive work – or counting

detective work – orgraphical detective

work“(Tukey, 1977)

Page 28: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 281

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD & DATA MININGDer Prozess des KDD – Was passiert bei der Exploration von Daten?

→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen

→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen

A

D

I

M

W

Page 29: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 291

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD & DATA MININGDer Prozess des KDD – Was passiert bei der Exploration von Daten?

→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen

→ Frage • Design • Erhebung • Analyse • Antwort→ Routine-Erhebungen→ Ungeplante Erhebungen

Unterstützung durch Data Mining …⇒ Möglichkeiten …⇒ Limitierungen … !

A

D

I

M

W

Page 30: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 301

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD & DATA MININGDer Prozess des KDD

(vgl. Fayyad et al., 1996)

Page 31: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 311

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD & DATA MINING Der Prozess des KDD – nach Fayyad (1996) I/II

→ Selection

In dieser Phase wird in Abhängigkeit vom Anwendungsgebiet und der dort untersuchten Fragestellung der im weiteren Verlauf betrachtete Datenausschnitt definiert.

→ Preprocessing

Die zuvor selektierten Daten werden bspw. bzgl. ihrer Konsistenz geprüft und ggf. die Konsistenz innerhalb der Daten hergestellt. Hierbei werden z.B. uneinheitliche Dar-stellungen gleicher Inhalte von Datenfeldern auf eine für die weitere Analyse verbind-liche Darstellung vereinheitlicht.

→ Transformation

Die in den vorangegangenen Phasen selektierten und vorverarbeiteten Daten werden in dieser Phase nach Bedarf, d.h. insbesondere unter Berücksichtigung der untersuchten Fragestellung, aggregiert/verdichtet oder in anderer Form transformiert. Hierdurch wird das im anschließenden Data-Mining-Schritt zu verarbeitende Datenvolumen i.d.R. re-duziert und vor dem Hintergrund eines Anwendungsgebiets oder einer anzuwendenden Data-Mining-Technik notwendig erscheinende Transformationsschritte müssen nicht erst während der automatischen Analyse berechnet werden.

Page 32: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 321

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD & DATA MINING Der Prozess des KDD – nach Fayyad (1996) II/II

→ Data Mining

Die transformierten Daten werden durch eine adäquat erscheinende Data-Mining-Technik automatisch nach Mustern, charakteristischen Phänomenen oder Zusam-menhängen durchsucht.

→ Interpretation

Die Resultate des Data Mining werden in dieser Phase vor dem Hintergrund des Anwendungsgebiets und der hierin untersuchten Fragestellung ausgewertet und bzgl. ihrer Qualität bewertet. Hierbei sind insbesondere Triviale oder bzgl. ihrer Plausibilität bzw. Validität fragwürdige Resultate zu identifizieren, wie sie etwa aufgrund von Artefakten oder Fehlern innerhalb der Daten (i.Allg. mangelhafteDatenqualität) entstehen können. Hierbei ist größte Sorgfalt geboten, um Arte-fakte oder Datenfehler nicht etwa fälschlicherweise als Phänomene anzusehen.

Page 33: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 331

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD – PROZESSMODELLE KDD – verschiedene Prozessmodelle (Übersicht)

Task Analysis Preprocessing Data Mining Postprocessing Deployment

Business Understanding

DataUnderstand-

ingModelling Evaluation DeploymentCRISP-DM Data

Preparation

Selection Pre-processing Data Mining Interpretation/

Evaluationnach Fayyad Trans-formation

Task Discovery DataDiscovery Model Development Data

Analysisnach Brachman &

AnandData

CleaningOutput

Generation

AufgabendefinitionAuswahl

derDM-Verf.

Interpretation/Evaluation

nach Hippner &Wilde

Daten-aufbereitung

Anwendung derErgebnisse

Auswahlder

Daten

Anwend.der

DM-Verf.

AssessSEMMA Modify/ManageExplore ModelSample

Ergebnisverarbeitungnach Wrobel et al. Extraktion/Integration

Verfahrensan-wendung

Anwendungverstehen

DM-Verfahren wählen

Analysedaten erzeugenUmsetzung

IBM IntelligentMiner Auswählen Data Mining InterpretierenUmsetzen

Page 34: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 341

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

KDD – PROZESSMODELLE KDD – verschiedene Prozessmodelle (grundlegende Phasen)

→ Task Analysis

→ Ziel-/Aufgabendefinition und Festlegung des Analyserahmens

→ Preprocessing

→ Datensammlung, -aufbereitung und -transformation

→ Data Mining

→ Kern-Phase der Datenanalyse (⇒ „Modellextraktion“)

→ Postprocessing

→ Ergebnissaufbereitung und Evaluation

→ Deployment

→ Umsetzung/Anwendung der Ergebnisse

Task Analysis, Preprocessing und Postprocessing sind in der Praxis i.d.R. sehr Zeitaufwändig!

Page 35: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 351

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DATA MINING – BEISPIEL I/IIAssoziationsanalyse I/III

→ Ziel der Assoziationsanalyse ist die Analyse sachlicher Verbundbe-ziehungen in Transaktionen – z.B. beim Produkterwerb im Super-markt

→ Resultat sind Aussagen der folgenden Form …

In 40% der Fälle, in denen Zahnbürsten gekauft werden, wird auch Zahnpasta gekauft. Beide Produkte kommen in 0,8% aller Transaktionen vor.

→ Praktische Fragestellung: Welche Produkte werden oft zusammen gekauft.

→ Cross-Selling: Wer A kauft, kauft vielfach auch B …

⇒ Anhaltspunkte zur Optimierung der Präsentation bzw. Platzierung von Produkten in Werbematerialien oder Supermarktregalen.

⇒ Gezieltes Bewerben von Käufern bestimmter Produkte.

Page 36: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 361

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DATA MINING – BEISPIEL I/II Assoziationsanalyse II/III

→ Schema einer Assoziationsregel …

Prämisse(unabhängige Variable)

„wenn A“

Konsequenz(abhängige Variable)

„dann B“Konfidenz Support

strukturelle Komponenten Gütekriterien

wenn Zahnbürste, dann Zahnpasta Konfidenz = 40%; Support = 0,8%; Lift = 20

Assoziationsregel

Lift

Support := Anteil an gesamten TransaktionenKonfidenz := Quotient aus Anzahl der Transaktionen die im wenn-dann-Part enthalten sind

und der Anzahl der Transaktionen aus der wenn-BedingungLift := Konfidenz / „erwartete Konfidenz“

(siehe nächste Folie)

Page 37: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 371

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DATA MINING – BEISPIEL I/II Assoziationsanalyse III/III

→ Vollständiges Beispiel …

→ Eine Supermarkt habe 100.000 Transaktionen an den Kassen, wobei 2.000 davon das Produkt Zahnbürste enthiel-ten, darunter 800, die ebenfalls das Produkt Zahnpasta ent-hielten.

→ Assoziationsregel (ohne Einschätzung der Güte): Wenn Zahnbürste gekauft wird, dann wird auch Zahnpasta ge-kauft.

→ Support: 800/100.000 = 0,008 (also 0,8%)→ Konfidenz: 800/2.000 = 0,4 (also 40%)→ Produkt Zahnpasta taucht in insgesamt 2.000 Transaktionen

auf. Somit ist die erwartete Konfidenz: 2.000/100.000 = 0.02→ Lift: 0,4 / 0,02 = 20

Page 38: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 381

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DATA MINING – BEISPIEL II/II Klassifikation I/V

→ Ziel der Klassifikation ist es, Objekte einer Eingabedatenmenge zu(vorgegebenen) Klassen zuzuordnen. Die Merkmale der Objekte müssen hierzu bei der Klassifikation derart in einen „funktionalen Zusammenhang“ gebracht werden, sodass deren Abbildung auf eine Klasse möglich wird.

→ Die der Klassifikation zugrunde liegenden Kriterien und ihr „funk-tionaler Zusammenhang“ wird beim Data Mining anhand von Datengelernt.

→ Anwendungssituationen …

Welche (zukünftigen) Kunden bedeuten für eine Versicherung ein hohes Risiko?

Welche (zukünftigen) Kunden eines Kreditinstituts erscheinenKreditwürdig?

Page 39: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 391

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DATA MINING – BEISPIEL II/IIKlassifikation II/V

→ Training – Lernen der Kriterien zur Zuordnung von Objekten zu Klassen …

Gegeben: Menge von Trainingsobjekten, die durch Merkmale (unabhängige Variablen) cha-rakterisiert sind. Information über Klassen-zugehörigkeit (abhängige Variable).

Resultat: Klassendefinitionen

→ Anwendung – Zuordnung von Objekten zu Klassen …

Gegeben: Objektbeschreibungen durch Angabe derMerkmale.

Resultat: Klassenzuordnung

Page 40: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 401

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DATA MINING – BEISPIEL II/IIKlassifikation III/V

→ Beispiel I/III

Gegeben ist eine Menge von Daten (Bilanzdaten/Kennzahlen) über verschiedene Firmen:

U = UmsatzG = GewinnE = EigenkapitalF = Fremdkapital

UG = Gewinnanteil am UmsatzFE = Fremdkapital/Eigenkapital

Jeder Datensatz ist einer von zwei Klassen zugeordnet:

kw = kreditwürdig nkw = nicht-kreditwürdig

Welche Attributwerte bestimmen, ob eine Firma kreditwürdig ist?

BilanzdatenKennzahlen

Page 41: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 411

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DATA MINING – BEISPIEL II/IIKlassifikation IV/V

→ Beispiel II/III

U < 5 Mio U > 50 Mio

5 Mio ≤ U ≤ 50 Mio

UG > 20UG ≤ 20

UG > 5UG ≤ 5

UG > 5UG ≤ 5

FE > 5FE ≤ 5

kw

kw

kw

kwnkw

nkw

nkw

Page 42: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 421

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

DATA MINING – BEISPIEL II/IIKlassifikation V/V

→ Beispiel III/III

Ein Entscheidungsbaum ist offenbar eine grafische Darstellung von Regeln:

– die Knoten des Baums entsprechen Entscheidungen– an den Wurzel sind die Klassen notiert

Beispiel: U < 5 Mio und UG ≤ 20 ⇒ nkw

– „Wenn der Umsatz kleiner als 5 Mio ist und der Gewinnweniger als (bzw. gleich) 20% des Umsatzes beträgt, dann ist die Firma nicht kreditwürdig.“

Page 43: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Folie 431

Abteilung Informationssysteme · Prof. Dr. Hans-Jürgen Appelrath / Dr. Frank Köster · Informationssysteme I · Universität Oldenburg12

LITERATURA. Bauer & H. Günzel (Hrsg.) (2001). Data Warehouse Systeme – Architektur,

Entwicklung, Anwendung. dpunkt.Verlag.M. Ester & J. Sander (2000). Knowledge Discovery in Databases – Techniken

und Anwendungen. Springer-Verlag.U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). Knowledge Discovery

and Data Mining: Towards a Unifying Framework. In E. Simoudis, J.W. Han & U. Fayyad (Hrsg.), Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, AAAI Press, Seiten 82-88.

U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). From data mining to knowledge discovery in databases. AI Magazine 17, Fall 1996, Seiten 37-54.

F. Köster (2002). Analyse von Simulationsmodellen mit Methoden des Knowledge Discovery in Databases. Dissertation, Carl von Ossietzky Universität Oldenburg (Fachbereich Informatik). Oldenburger Satz & Einband.

F. Köster & K. Mehl (2003). A Data-Driven Approach to Support the Development of Agents Assisting the Assessment and Diagnosis of Man/Machine Inter-actions. 12th International Symposium on Aviation Psychology, Dayton (OH), USA – Proceedings, Seiten 674-679.

E. Woods & E. Kyral (1997). Ovum Evaluates: Data Mining. Ovum Evaluates, Ovum Ltd.

Page 44: Datenbanksysteme SS 2007dbs/2007/Vorlesung/pdf/folie-16---V1-00.pdfDefinition – Data-Warehouse-System (DWS) “Data-Warehouse-System: Informationssystem, bestehend aus allen für

Ende von Kapitel 16:Data Warehousing und

Knowledge Discovery in Databases