12
Transformation Lifecycle Management mit Nautilus Melanie Herschel Universität Tübingen [email protected] IBM Böblingen 17. Februar, 2011 1 17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen Agenda Vorstellung (the past) 2

Transformation Lifecycle Management mit Nautilus · •Nachvollziehbarkeit •Verantwortlichkeit •Wiederholbarkeit •Korrektheit 7 17. Januar 2011 | IBM Böblingen | Melanie Herschel

Embed Size (px)

Citation preview

Transformation Lifecycle Managementmit Nautilus

Melanie HerschelUniversität Tü[email protected]

IBM Böblingen17. Februar, 2011

1

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Agenda

Vorstellung(the past)

TransformationLifecycle

Management(the future)

2

Datenherkunft(the present)

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Kurze Vorstellung

• 2003 - 2008: Wissenschaftliche Mitarbeiterin an der Humboldt-Universität zu Berlin und am Hasso-Plattner-Institut Potsdam (FG Informationsintegration/Informationssysteme, Prof. Felix Naumann).

• Datenintegration [VLDB05, EDBT10, ...]

• Datenreinigung in XML: XClean Projekt bei INRIA, FR [CIDR07,CAISE07] finanziert durch ein DAAD Doktorandenstipendium

• Domänen-unabhängige Dublettenerkennung [SIGMOD05, EDBT06, CIKM07, SynthesisLecture10,...]

• Domänen-abhängige Dublettenerkennung [VLDB08]in Kooperation mit der SCHUFA Holding AG

3

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

• 2008 - 2009: Postdoktorandin am IBM Almaden Research Center (Clio Gruppe, Howard Ho)

• Datenherkunft [VLDB09]

• Linked open dataIntegration von US-Regierungsdaten im MIDAS Projekt.

• Seit 2009: Wissenschaftliche Mitarbeiterin an der Universität Tübingen (FG Datenbanksysteme, Prof. Torsten Grust)

• Datenherkunft [VLDB10]gefördert durch die Baden-Württemberg Stiftung

• Transformation Lifecycle Management4

Kurze Vorstellung

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

• Mitglied diverser Programm Kommitees und Gutachterin für Fachzeitschriften.

• Mitorganisatorin des

• VLDB Workshops Quality in Databases (QDB 2009)

• ICDE Workshops Managing Data Throughout its Lifecycle (DaLi 2011)

• Gastherausgeberin der Sonderausgabe Informationsintegration der Zeitschrift “it - information technology” (Sommer 2012).

5

Kurze Vorstellung

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Agenda

Vorstellung(the past)

TransformationLifecycle

Management(the future)

6

Datenherkunft(the present)

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Warum Datenherkunft

• Nachvollziehbarkeit

• Verantwortlichkeit

• Wiederholbarkeit

• Korrektheit

7

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Datenherkunft im Überblick

8

Data Provenance

Existing data Missing data

why-provenance

how-provenance

where-provenance

instance-based provenance

query-based provenance

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Datenherkunft existierender DatenBeispiel

!"# &'()* +(',

!1 456+7)+&89#,) :56+

!2 4.+#7;)"<9'5= :.+#

!3 >#(#$765=#9,# %#(#$

""# !"#?1 !1?@ !1?2 !2?3 !3?@ !3

2"# !"# 2):6;/, =)>)<)*)69

0%1 !1 /5B,#+/.(#94>/ *$&#+,0%2 !1 >&#$3A94>/ %);B&'

0%3 !2 =.$C#(94>/ *$&#+,0%@ !3 D&+#(."E+/94>/ %);B&'

!"#$ !"#%

0!1 !2

0!2 !3

23"# 42"# 5(6,78/9

%-1 0%1 0?3%-2 0%1 0?1

%-3 0%2 0?@%-@ 0%@

!"#$ %&'()$#UserInterest*$&#+, %&'()$#-./

!$-&'()* ./),01 !%-&'()*456+7)+&89#,) :.+# 4.+#7;)"<9'5=4.+#7;)"<9'5= :56+ 456+7)+&89#,)4.+#7;)"<9'5= %#(#$ >#(#$765=#9,#>#(#$765=#9,# :.+# 4.+#7;)"<9'5=

!$-&'()* 2):6;/, 25806/)<;68/>#(#$765=#9,# >&#$3A94>/ :56+

Query1Pairs of connected users

Query2Pictures users are interested in

9

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Datenherkunft existierender DatenBeispiel

▸ T1: Bestellungen (Produktlisten) aufspalten

!Neues Schema: Bestellung(order-id, cust-id, date, prod-id, amount)

▸ T2: Kategorie selektieren

! Filter für Computer Kategorie

▸ T3: Join (und Projektion) über Bestellungen und Produkte

!Neues Schema: (order-id, date, prod-id, amount, prod-name, price, valid)

▸ T4: Aggregation und Pivotisierung

!Verkaufsmenge pro Quartal und Produkt

!Neues Schema: (prod-name, Q1, Q2, Q3, Q4)

▸ T5: Durchschnittsberechnung

!Neues Schema: (prod-name, Q1, Q2, Q3, AVG123, Q4)

▸ T6: Selektion für Verkaufsprünge

▸ T7: Projektion

!Neues Schema: Verkaufssprung(prod-name, AVG123, Q4) T2

T7

T6

T5

T4

T1

T3

10prod-id prod-name category price valid

Produkt Bestellungorder-id cust-id date prod-list

Verkaufssprungprod-name AVG123 Q4

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Arten der HerkunftsberechnungEager vs. Lazy

11

Eager (Vorberechnung) Lazy (on-demand Berechnung)

Vorteile

• Provenance direkt aus Transformationsergebnis berechenbar

→ Schnellerer Zugriff auf Provenance-Information

• Kann auf existierende Systeme ohne teures re-engineering angewendet werden.

• Keine zusätzlichen Speicherkosten.

• Keine längere Anfragebearbeitung.

Nachteile

• Komplexere Anfrage→Längere Anfragebearbeitung

• Größerer Speicherbedarf bei Materialisierung des Transformationsergebnisses.

• Komplexe Berechnung der Provenance

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Datenherkunft fehlender DatenBeispiel

#!" $%&'( )&%*

!: 012+3)+&45#,) >12+

!< 0.+#3?)"@5'17 >.+#

!= A#(#$3217#5,# %#(#$

!!" #!"9: !:9; !:9< !<9= !=9; !=

-!" #!" -'./01* 7'8'5'('/9

C%: !: /18,#+/.(#50A/ *$&#+,C%< !: A&#$=B50A/ %)?8&'

C%= !< 7.$D#(50A/ *$&#+,C%; != E&+#(."F+/50A/ %)?8&'

#!"+ #!"6

C!: !<

C!< !=

-:!" ;-!" 2&/*<319

%-: C%: C9=%-< C%: C9:

%-= C%< C9;%-; C%;

!"#$ %&'()$#UserInterest*$&#+, %&'()$#-./

#+,$%&'( =1'*4> #6,$%&'(012+3)+&45#,) >.+# 0.+#3?)"@5'170.+#3?)"@5'17 >12+ 012+3)+&45#,)0.+#3?)"@5'17 %#(#$ A#(#$3217#5,#A#(#$3217#5,# >.+# 0.+#3?)"@5'17

#+,$%&'( -'./01* -234/1'50/31A#(#$3217#5,# A&#$=B50A/ >12+

Query1Pairs of connected users

Query2Pictures users are interested in

012+3)+&45#,) 6A&' 6+.7#

012+3)+&45#,) 6+.7# 6#7.&8

Keinen Nutzer mit diesem Namen? Nutzer hat keine Interessen? Fehler in der Anfrage (Join statt Outer Join)? ...

12

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Query-based explanationsWhy-Not [Chapman09],

ConQuer [Tran10]

Instance-based explanationsMissing-Answers [Huang08], Artemis [VLDB09,VLDB10]

Arten der Datenherkunft fehlender DatenInstanz vs. Anfragebasiert

Warum fehlen bestimmte Daten im Ergebnis einer Anfrage Q?

A B

a b

a‘ b

B C

b c

b‘ c‘

S TA C

a c

a‘ c

a‘ c‘

!AC(S !B T)

Q

a‘ b‘

b c‘

a‘ $x $x c‘

13

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Artemis

• Generiert alle möglichen instanzbasierten Erklärungen.

• Berücksichtigt Seiteneffekte.

• Garantiert Korrektheit durch Verwendung eines Constraint-Solvers

• Als Eclipse Plugin implementiert.

14Contributed by Laure-Berti Equille

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Agenda

Vorstellung(the past)

TransformationLifecycle

Management(the future)

15

Datenherkunft(the present)

Manueller Transformation Lifecycle

State-of-the-art: manuelle Entwicklung

von Anfragen bzw. Datentransformationen.

Analyze

FixTest

16

Transformation Lifecycle Managementmit Nautilus

Semi-automatische Unterstützung des Prozesses

Analyze

FixTest

•Erklären existierender Daten

• Erklären fehlender Daten

• Interaktionen mit weiteren Anfragen

•Auswertung der Erklärungen

• Vorschlagen von “fixes”•Verwaltung & Analyse der Prozesshistorie

• Verwaltung & Analyse der Änderungen im Datenfluß17

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Interaktionen mit Nautilus

18

SQLdeveloper

Analyze

Fix

Test

Nautilus1 debugging scenario

2 explanations3 explanation annotations

4 query modification request5 query modifications

6 modification annotations7 modification decision

8 modification impact

time

9 impact annotation

http://www.nautilus-system.org

Berechnung der Datenherkunft

Berechnung von Änderungsvorschlägen aufgrund neuer Anforderungen an die Transformation bzw. aufgrund von Fehlern.

Berechnung und Zusammenfassung der Auswirkungen der Transformation.

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Nautilus Architektur

19

GUI

DBMetadatarepository

Eclipse Views & Editors

Explanation manager

Development cycle manager

Query modification manager

Explanation generator

Explanation annotator

Explanation annotation analyzer

Modification generator

Modification annotator

Modification annotation analyzer

AFT-inference engine

Modification impact analyzer

Explanation ranker Modification ranker

Modificationimpact annotator

Debugging scenario manager

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Ausblick zur Eigenen Forschung

20

• Datenherkunft

• Algorithmus, der Datenherkunft existierender und fehlender Daten vereint.

• Verbesserung der Effizienz und der Interaktionsmöglichkeiten.

• Transformation Lifecycle Management

• Algorithmen für die Fix-Phase & Test-Phase

• Entwicklung und Validierung

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

LiteraturverzeichnisDatenherkunft fehlender Daten

21

• [Huang08] J. Huang, T. Chen, A. Doan, and J. F. Naughton. On theprovenance of non-answers to queries over extracted data. In Proceedings of the VLDB Endowment (PVLDB), 1(1), 2008.

• [Chapman09] A. Chapman and H. V. Jagadish. Why not? In International Conference on the Management of Data (SIGMOD), 2009.

• [Tran10] Q. T. Tran and C.-Y. Chan. How to ConQueR why-not questions. In International Conference on the Management of Data (SIGMOD), 2010.

• [VLDB09] Melanie Herschel, Mauricio A. Hernández et Wang Chiew Tan. Artemis: a system for analyzing missing answers. In Proceedings of the VLDB Endowment (PVLDB), 2(2), 2009.

• [VLDB10] Melanie Herschel and Mauricio A. Hernández. Explaining Missing Answers to SPJUA Queries. In Proceedings of the VLDB Endowment (PVLDB), 3, 2010.

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

LiteraturverzeichnisAusgewählte eigene Publikationen

22

Datenintegration

• [VLDB05] Alexander Bilke, Jens Bleiholder, Christoph Böhm, Karsten Draba, Felix Naumann, and Melanie Weis. Automatic data fusion with HumMer. In Very Large Data Bases (VLDB), 2005.

• [EDBT10] Jens Bleiholder, Sascha Szott, Melanie Herschel, and Felix Naumann. Using subsumption and complementation for data fusion. In Extending Database Technology (EDBT), 2010

Datenreinigung

• [CIDR07] Melanie Weis and Felix Naumann. DogmatiX tracks down duplicates in XML. In Conference on Management of Data (SIGMOD), 2005

• [CAISE07] Melanie Weis and Ioana Manolescu. Declarative XML data cleaning with XClean. In Conference on Advanced Information Systems Engineering (CAiSE), 2007

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

LiteraturverzeichnisAusgewählte eigene Publikationen

23

Dublettenerkennung

• [SIGMOD05] Melanie Weis and Felix Naumann. DogmatiX tracks down duplicates in XML. In Conference on Management of Data (SIGMOD), 2005

• [EDBT06] Sven Puhlmann, Melanie Weis and Felix Naumann. XML duplicate detection using sorted neighborhoods. In Extending Database Technology (EDBT), 2006

• [CIKM07] Luís Leitão, Pável Calado, and Melanie Weis. Structure-based inference of XML similarity for fuzzy duplicate detection. In Conference on Information and Knowledge Management (CIKM), 2007.

• [VLDB08] Melanie Weis, Felix Naumann, Ulrich Jehle, Jens Lufter, and Holger Schuster. Industry-scale duplicate detection. In Proceedings of the VLDB Endowment (PVLDB), 1(2), 2008.

• [SynthesisLecture10] Felix Naumann and Melanie Herschel. An Introduction to Duplication Detection. Morgan and Claypool Publishers, 2010.