Transformation Lifecycle Management mit Nautilus · •Nachvollziehbarkeit •Verantwortlichkeit •Wiederholbarkeit •Korrektheit 7 17. Januar 2011 | IBM Böblingen | Melanie Herschel

Transformation Lifecycle Managementmit Nautilus

Melanie HerschelUniversität Tü[email protected]

IBM Böblingen17. Februar, 2011

1

17. Januar 2011 | IBM Böblingen | Melanie Herschel | Universität Tübingen

Agenda

Vorstellung(the past)

TransformationLifecycle

Management(the future)

2

Datenherkunft(the present)


Kurze Vorstellung

• 2003 - 2008: Wissenschaftliche Mitarbeiterin an der Humboldt-Universität zu Berlin und am Hasso-Plattner-Institut Potsdam (FG Informationsintegration/Informationssysteme, Prof. Felix Naumann).

• Datenintegration [VLDB05, EDBT10, ...]

• Datenreinigung in XML: XClean Projekt bei INRIA, FR [CIDR07,CAISE07] finanziert durch ein DAAD Doktorandenstipendium

• Domänen-unabhängige Dublettenerkennung [SIGMOD05, EDBT06, CIKM07, SynthesisLecture10,...]

• Domänen-abhängige Dublettenerkennung [VLDB08]in Kooperation mit der SCHUFA Holding AG

3


• 2008 - 2009: Postdoktorandin am IBM Almaden Research Center (Clio Gruppe, Howard Ho)

• Datenherkunft [VLDB09]

• Linked open dataIntegration von US-Regierungsdaten im MIDAS Projekt.

• Seit 2009: Wissenschaftliche Mitarbeiterin an der Universität Tübingen (FG Datenbanksysteme, Prof. Torsten Grust)

• Datenherkunft [VLDB10]gefördert durch die Baden-Württemberg Stiftung

• Transformation Lifecycle Management4

Kurze Vorstellung


• Mitglied diverser Programm Kommitees und Gutachterin für Fachzeitschriften.

• Mitorganisatorin des

• VLDB Workshops Quality in Databases (QDB 2009)

• ICDE Workshops Managing Data Throughout its Lifecycle (DaLi 2011)

• Gastherausgeberin der Sonderausgabe Informationsintegration der Zeitschrift “it - information technology” (Sommer 2012).

5

Kurze Vorstellung


Agenda




6



Warum Datenherkunft

• Nachvollziehbarkeit

• Verantwortlichkeit

• Wiederholbarkeit

• Korrektheit

7


Datenherkunft im Überblick

8

Data Provenance

Existing data Missing data

why-provenance

how-provenance

where-provenance

instance-based provenance

query-based provenance


Datenherkunft existierender DatenBeispiel

!"# &'()* +(',

!1 456+7)+&89#,) :56+

!2 4.+#7;)"<9'5= :.+#

!3 >#(#$765=#9,# %#(#$

""# !"#?1 !1?@ !1?2 !2?3 !3?@ !3

2"# !"# 2):6;/, =)>)<)*)69

0%1 !1 /5B,#+/.(#94>/ *$&#+,0%2 !1 >&#$3A94>/ %);B&'

0%3 !2 =.$C#(94>/ *$&#+,0%@ !3 D&+#(."E+/94>/ %);B&'

!"#$ !"#%

0!1 !2

0!2 !3

23"# 42"# 5(6,78/9

%-1 0%1 0?3%-2 0%1 0?1

%-3 0%2 0?@%-@ 0%@

!"#$ %&'()$#UserInterest*$&#+, %&'()$#-./

!$-&'()* ./),01 !%-&'()*456+7)+&89#,) :.+# 4.+#7;)"<9'5=4.+#7;)"<9'5= :56+ 456+7)+&89#,)4.+#7;)"<9'5= %#(#$ >#(#$765=#9,#>#(#$765=#9,# :.+# 4.+#7;)"<9'5=

!$-&'()* 2):6;/, 25806/)<;68/>#(#$765=#9,# >&#$3A94>/ :56+

Query1Pairs of connected users

Query2Pictures users are interested in

9


Datenherkunft existierender DatenBeispiel

▸ T1: Bestellungen (Produktlisten) aufspalten

!Neues Schema: Bestellung(order-id, cust-id, date, prod-id, amount)

▸ T2: Kategorie selektieren

! Filter für Computer Kategorie

▸ T3: Join (und Projektion) über Bestellungen und Produkte

!Neues Schema: (order-id, date, prod-id, amount, prod-name, price, valid)

▸ T4: Aggregation und Pivotisierung

!Verkaufsmenge pro Quartal und Produkt

!Neues Schema: (prod-name, Q1, Q2, Q3, Q4)

▸ T5: Durchschnittsberechnung

!Neues Schema: (prod-name, Q1, Q2, Q3, AVG123, Q4)

▸ T6: Selektion für Verkaufsprünge

▸ T7: Projektion

!Neues Schema: Verkaufssprung(prod-name, AVG123, Q4) T2

T7

T6

T5

T4

T1

T3

10prod-id prod-name category price valid

Produkt Bestellungorder-id cust-id date prod-list

Verkaufssprungprod-name AVG123 Q4


Arten der HerkunftsberechnungEager vs. Lazy

11

Eager (Vorberechnung) Lazy (on-demand Berechnung)

Vorteile

• Provenance direkt aus Transformationsergebnis berechenbar

→ Schnellerer Zugriff auf Provenance-Information

• Kann auf existierende Systeme ohne teures re-engineering angewendet werden.

• Keine zusätzlichen Speicherkosten.

• Keine längere Anfragebearbeitung.

Nachteile

• Komplexere Anfrage→Längere Anfragebearbeitung

• Größerer Speicherbedarf bei Materialisierung des Transformationsergebnisses.

• Komplexe Berechnung der Provenance


Datenherkunft fehlender DatenBeispiel

#!" $%&'( )&%*

!: 012+3)+&45#,) >12+

!< 0.+#3?)"@5'17 >.+#

!= A#(#$3217#5,# %#(#$

!!" #!"9: !:9; !:9< !<9= !=9; !=

-!" #!" -'./01* 7'8'5'('/9

C%: !: /18,#+/.(#50A/ *$&#+,C%< !: A&#$=B50A/ %)?8&'

C%= !< 7.$D#(50A/ *$&#+,C%; != E&+#(."F+/50A/ %)?8&'

#!"+ #!"6

C!: !<

C!< !=

-:!" ;-!" 2&/*<319

%-: C%: C9=%-< C%: C9:

%-= C%< C9;%-; C%;

!"#$ %&'()$#UserInterest*$&#+, %&'()$#-./

#+,$%&'( =1'*4> #6,$%&'(012+3)+&45#,) >.+# 0.+#3?)"@5'170.+#3?)"@5'17 >12+ 012+3)+&45#,)0.+#3?)"@5'17 %#(#$ A#(#$3217#5,#A#(#$3217#5,# >.+# 0.+#3?)"@5'17

#+,$%&'( -'./01* -234/1'50/31A#(#$3217#5,# A&#$=B50A/ >12+

Query1Pairs of connected users

Query2Pictures users are interested in

012+3)+&45#,) 6A&' 6+.7#

012+3)+&45#,) 6+.7# 6#7.&8

Keinen Nutzer mit diesem Namen? Nutzer hat keine Interessen? Fehler in der Anfrage (Join statt Outer Join)? ...

12


Query-based explanationsWhy-Not [Chapman09],

ConQuer [Tran10]

Instance-based explanationsMissing-Answers [Huang08], Artemis [VLDB09,VLDB10]

Arten der Datenherkunft fehlender DatenInstanz vs. Anfragebasiert

Warum fehlen bestimmte Daten im Ergebnis einer Anfrage Q?

A B

a b

a‘ b

B C

b c

b‘ c‘

S TA C

a c

a‘ c

a‘ c‘

!AC(S !B T)

Q

a‘ b‘

b c‘

a‘ $x $x c‘

13


Artemis

• Generiert alle möglichen instanzbasierten Erklärungen.

• Berücksichtigt Seiteneffekte.

• Garantiert Korrektheit durch Verwendung eines Constraint-Solvers

• Als Eclipse Plugin implementiert.

14Contributed by Laure-Berti Equille


Agenda




15


Manueller Transformation Lifecycle

State-of-the-art: manuelle Entwicklung

von Anfragen bzw. Datentransformationen.

Analyze

FixTest

16

Transformation Lifecycle Managementmit Nautilus

Semi-automatische Unterstützung des Prozesses

Analyze

FixTest

•Erklären existierender Daten

• Erklären fehlender Daten

• Interaktionen mit weiteren Anfragen

•Auswertung der Erklärungen

• Vorschlagen von “fixes”•Verwaltung & Analyse der Prozesshistorie

• Verwaltung & Analyse der Änderungen im Datenfluß17


Interaktionen mit Nautilus

18

SQLdeveloper

Analyze

Fix

Test

Nautilus1 debugging scenario

2 explanations3 explanation annotations

4 query modification request5 query modifications

6 modification annotations7 modification decision

8 modification impact

time

9 impact annotation

http://www.nautilus-system.org

Berechnung der Datenherkunft

Berechnung von Änderungsvorschlägen aufgrund neuer Anforderungen an die Transformation bzw. aufgrund von Fehlern.

Berechnung und Zusammenfassung der Auswirkungen der Transformation.


Nautilus Architektur

19

GUI

DBMetadatarepository

Eclipse Views & Editors

Explanation manager

Development cycle manager

Query modification manager

Explanation generator

Explanation annotator

Explanation annotation analyzer

Modification generator

Modification annotator

Modification annotation analyzer

AFT-inference engine

Modification impact analyzer

Explanation ranker Modification ranker

Modificationimpact annotator

Debugging scenario manager


Ausblick zur Eigenen Forschung

20

• Datenherkunft

• Algorithmus, der Datenherkunft existierender und fehlender Daten vereint.

• Verbesserung der Effizienz und der Interaktionsmöglichkeiten.

• Transformation Lifecycle Management

• Algorithmen für die Fix-Phase & Test-Phase

• Entwicklung und Validierung


LiteraturverzeichnisDatenherkunft fehlender Daten

21

• [Huang08] J. Huang, T. Chen, A. Doan, and J. F. Naughton. On theprovenance of non-answers to queries over extracted data. In Proceedings of the VLDB Endowment (PVLDB), 1(1), 2008.

• [Chapman09] A. Chapman and H. V. Jagadish. Why not? In International Conference on the Management of Data (SIGMOD), 2009.

• [Tran10] Q. T. Tran and C.-Y. Chan. How to ConQueR why-not questions. In International Conference on the Management of Data (SIGMOD), 2010.

• [VLDB09] Melanie Herschel, Mauricio A. Hernández et Wang Chiew Tan. Artemis: a system for analyzing missing answers. In Proceedings of the VLDB Endowment (PVLDB), 2(2), 2009.

• [VLDB10] Melanie Herschel and Mauricio A. Hernández. Explaining Missing Answers to SPJUA Queries. In Proceedings of the VLDB Endowment (PVLDB), 3, 2010.


LiteraturverzeichnisAusgewählte eigene Publikationen

22

Datenintegration

• [VLDB05] Alexander Bilke, Jens Bleiholder, Christoph Böhm, Karsten Draba, Felix Naumann, and Melanie Weis. Automatic data fusion with HumMer. In Very Large Data Bases (VLDB), 2005.

• [EDBT10] Jens Bleiholder, Sascha Szott, Melanie Herschel, and Felix Naumann. Using subsumption and complementation for data fusion. In Extending Database Technology (EDBT), 2010

Datenreinigung

• [CIDR07] Melanie Weis and Felix Naumann. DogmatiX tracks down duplicates in XML. In Conference on Management of Data (SIGMOD), 2005

• [CAISE07] Melanie Weis and Ioana Manolescu. Declarative XML data cleaning with XClean. In Conference on Advanced Information Systems Engineering (CAiSE), 2007


LiteraturverzeichnisAusgewählte eigene Publikationen

23

Dublettenerkennung

• [SIGMOD05] Melanie Weis and Felix Naumann. DogmatiX tracks down duplicates in XML. In Conference on Management of Data (SIGMOD), 2005

• [EDBT06] Sven Puhlmann, Melanie Weis and Felix Naumann. XML duplicate detection using sorted neighborhoods. In Extending Database Technology (EDBT), 2006

• [CIKM07] Luís Leitão, Pável Calado, and Melanie Weis. Structure-based inference of XML similarity for fuzzy duplicate detection. In Conference on Information and Knowledge Management (CIKM), 2007.

• [VLDB08] Melanie Weis, Felix Naumann, Ulrich Jehle, Jens Lufter, and Holger Schuster. Industry-scale duplicate detection. In Proceedings of the VLDB Endowment (PVLDB), 1(2), 2008.

• [SynthesisLecture10] Felix Naumann and Melanie Herschel. An Introduction to Duplication Detection. Morgan and Claypool Publishers, 2010.

Documents

Transformation Lifecycle Management mit Nautilus · •Nachvollziehbarkeit •Verantwortlichkeit •Wiederholbarkeit •Korrektheit 7 17. Januar 2011 | IBM Böblingen | Melanie Herschel