Upload
sofia-haupt
View
213
Download
0
Tags:
Embed Size (px)
Citation preview
Peer Data Management Systems (PDMS)
Berlin, 19. Januar 2005Armin Roth
Humboldt-Universität zu Berlin
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 2
Überblick Skalierbare und flexible
Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 3
Rückblick: Integrierte Informationssysteme Globales Schema Direkter Zugriff auf jedes Quellsystem
Oracle,DB2…
Web Service
Anwen-dung
HTML Form
Datei-system
Integriertes Informationssystem
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 4
Nachteile integrierter Informationssysteme Globales Schema:
Komplex Einigungsprozess erforderlich Wartung bedeutet (aufwändige) Schema-Evolution Praxis bevorzugt dynamische Integration mit “ähnlichen”
Informationssystemen→ Skalierbarkeit, Flexibilität problematisch
Mediator: Single point of … Control Failure Maintenance
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 5
Beispiel:Standardisiertes Schema ISO 10303 (STEP):
Standard for Exchange of Product Data Teilschema Grunddaten für Automotive Mech
anik-Entwurfsprozess (ISO 10303-214) Entstanden in langem
Standardisierungsprozess Datentransformation aufwändig
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 6
PDMS als Generalisierung integrierter Informationssysteme Integration bereits existierender
integrierter Informationssysteme Beispielsweise bei
Firmenzusammenschlüssen Reorganisationen
Integriertes Informationssystem 1
Integriertes Informationssystem 2
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 7
Überblick Skalierbare und flexible
Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 8
Peers: Integrierte Informationssysteme
Peer Schema
Lokale Datenquellen (lokales Schema)
Funktionalität Anfragen initiieren Anfragen auswerten Anfragevermittlung
(Mediation)
Lokale Mappings
Peer Mappings
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 9
P1
P2
P5
P4 P6
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 10
Mappings eines Peers Formalismen
GLaV, GaV, LaV Equality und
Inclusion Mappings Inclusion Mappings sind
gerichtet
P RL
GLaV-Mapping:Q1(P1) Q2(P2)
(Q1, Q2 : Anfragen über Peer-Mengen)
M
M: R(x, y) L(x, y)
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 11
Anwendungen für PDMS Wichtige Annahmen:
Peers reichen Anfragen weiter und geben auch Daten als Anfrageergebnis zurück,
die sie selbst von anderen Peers erhalten haben Denkbare Anwendungen
Wissenschaftliche Daten (z.B. Life Sciences) Katastrophen-Management Gesundheitsmanagement Allgemein: Semantic Web
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 12
Überblick Skalierbare und flexible
Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 13
P1 Kurs kurs_id titel fak univ fach doz
P2
P5
Kurs kurs_id titel Lehrt prof kurs_id sem eval fak
DB_Kurs kurs_id titel fak univ doz
Arbeitet prof fach ort
Event event_id art titel
Fak fak fach
P4 P6
P6.Event(kurs_id, fach, titel) P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)
P4.Arbeitet(prof, fach, ort) P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)
P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak),P2.Fak(fak, fach) P1.Kurs(kurs_id, titel, fak, univ, fach, doz)
P5.DB_Kurs(kurs_id, titel, fak, univ, doz) P1.Kurs(kurs_id, titel, fak, univ, fach, doz)
P1.
Kur
s(ku
rs_i
d, ti
tel,
fak,
uni
v, fa
ch, d
oz)
P
6.E
vent
(kur
s_id
, fac
h, ti
tel)
P5.
DB
_Kur
s(ku
rs_i
d, ti
tel,
fak,
uni
v, d
oz)
P6.
Eve
nt(k
urs_
id, a
rt, ti
tel)
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 14
Anfragebearbeitung: Rule-Goal Tree [HIST03] Goal-Knoten :
Prädikate (umformulierter) Anfrage(n) + zugehörige Vergleichsprädikate
Rule-Knoten : entsprechen Peer-Mappings
P.q(x, y)
Q
P.L(x, y), x > 0
P RL
P.R(x, y), x > 0
Q: q(x, y) :– P.R(x, y), x > 0
M: R(x, y) L(x, y)
M
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 15
GaV-Anfrageumformulierung
[] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () M12
[] Peer002.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) [] Peer002.Fak(fak, fach)
P1 Kurs kurs_id titel fak univ fach doz 20%
P2
Kurs kurs_id titel Lehrt prof kurs_id sem eval fak
Fak fak fach
40%
M12
Q: P1.q(kurs_id, titel, fak, univ, fach, doz) :– P1.Kurs(kurs_id, titel, fak, univ, fach, doz)
P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak),P2.Fak(fak, fach) P1.Kurs(kurs_id, titel, fak, univ, fach, doz)
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 16
LaV-Anfrageumformulierung
[] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () M12
[] Peer002.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () M24
[] Peer004.Arbeitet(prof__1, fach, ort__6) [unc] Peer002.Fak(fak, fach) [] Peer002.Fak(fak, fach)
P2
Kurs kurs_id titel Lehrt prof kurs_id sem eval fak
Arbeitet prof fach ort
Fak fak fach
40%
10%
P4P4.Arbeitet(prof, fach, ort) P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 17
Behandlung von Zyklen Equality-Mappings bedeuten Zyklen:
Q1(P1) = Q2(P2) Q1(P1) Q2(P2) Q1(P1) Q2(P2)
First-order Logic-Semantik: Anfragebearbeitung bei Zyklen unentscheidbar [HIST03, CGLR04]
Abbruchkriterien (z.B. mehrfache Verwendung eines Mappings): verliert u.U. Antworten [Schw06]
Q
P2
MP1P2
P2
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 18
P1 Kurs kurs_id titel fak univ fach doz
P2
P5
Kurs kurs_id titel Lehrt prof kurs_id sem eval fak
DB_Kurs kurs_id titel fak univ doz
Arbeitet prof fach ort
Event event_id art titel
Fak fak fach
P4 P6
Mapping-Zyklus
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 19
[] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () ML1
[] LS001_1.Kurs(kurs_id, titel, fak, univ, fach, doz) () M12
[] Peer002.Kurs(kurs_id, titel) () M26
[] Peer006.Event(event_id__4, art__5, titel) () M65
[] Peer005.DB_Kurs(kurs_id__8, titel, fak__9, univ__10, doz__11) () ML5
[] LS005_1.DB_Kurs(kurs_id__8, titel, fak__9, univ__10, doz__11) () M61
[] Peer001.Kurs(event_id__4, titel, fak__12, univ__13, art__5, doz__14) () ML1
[] LS001_1.Kurs(event_id__4, titel, fak__12, univ__13, art__5, doz__14) () M15
[] Peer005.DB_Kurs(event_id__4, titel, fak__12, univ__13, doz__14) () ML5
[] LS005_1.DB_Kurs(event_id__4, titel, fak__12, univ__13, doz__14) [unc] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) [unc] Peer002.Fak(fak, fach) () ML2
[] LS002_1.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () ML2
[] LS002_1.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () M24
[] Peer004.Arbeitet(prof__1, fach, ort__6) () ML4
[] LS004_1.Arbeitet(prof__1, fach, ort__6) [unc] Peer002.Fak(fak, fach) [] Peer002.Fak(fak, fach) () ML2
[] LS002_1.Fak(fak, fach) () M15
[] Peer005.DB_Kurs(kurs_id, titel, fak, univ, doz) () ML5
[] LS005_1.DB_Kurs(kurs_id, titel, fak, univ, doz)
M12 wird nicht mehr genutzt: Abbruch des Zyklus
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 20
Anfrageumformulierung und Vergleichsprädikate Überlappung Vergleichprädikate
von Nutzer-Anfrage und Mappings Entlang von Mapping-Pfaden akkumulieren
sich Selektionen und verringern die Kardinalität des Anfrageergebnisses
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 21
Ableitung des Anfrageplanes Verzweigender Goal-Knoten: UNION Verzweigender Rule-Knoten: JOIN
P1.Kurs
P1.q
Q
P2.Kurs P2.Lehrt
P4.Arbeitet
Peer002.q
UNION
JOIN
UNION
UNION
P2.Fak
JOIN
(deckt P2.Lehrt und P2.Fak ab)
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 22
Effizienzprobleme durch Redundanzen Redundante Mapping-Pfade
führen zu stark verzweigten Rule-Goal Trees
Beispiel [Schw06]: 31 Peers Rang ca. 5
(Anzahl von Peers, zu denen ein Peer Mappings hat)
34378 Union- und 17035 Join-Operationen
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 23
Überblick Skalierbare und flexible
Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 24
Containment-based Pruning [TH04] PDMS Piazza (s.u.) Pruning von h, wenn
(i) g (alle Antworten von) h enthält (g und h müssen am selben Peer liegen)(ii) keine Joins zwischen g und f
Vorteil: Steigerung der Effizienz um etwa eine
Grössenordnung Keine Antworten gehen verloren
Nachteil: f bzw. g und h können an
unterschiedlichen Peers liegen (hier P* bzw. P) Kenntnis nicht-lokaler Teile des Rule-Goal Tree erforderlich
Eingriff in (Kommunikations-) Autonomie der Peers
…
…
…
Q
P*.f
P.hP.g
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 25
Qualitätsgesteuerte Anfragebearbeitung Wichtiges Qualitätskriterium in
Informationsintegration: Vollständigkeit Extensionale Vollständigkeit: Tupelanteil Intensionale Vollständigkeit: Dichte von
Datenwerten ( NULL) Projektionen und Selektionen in Peer-
Mappings führen zu Informationsverlust Konzessionen an Vollständigkeit
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 26
P1 Kurs kurs_id titel fak univ fach doz 20%
P2
P5
Kurs kurs_id titel Lehrt prof kurs_id sem eval fak
DB_Kurs kurs_id titel fak univ doz
Arbeitet prof fach ort
Event event_id art titel
Fak fak fach
80%
10%
P4 P6
20%
P6.Event(kurs_id, fach, titel) P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)
P4.Arbeitet(prof, fach, ort) P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach), ort 10000, ort 11000
P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak),P2.Fak(fak, fach) P1.Kurs(kurs_id, titel, fak, univ, fach, doz)
P5.DB_Kurs(kurs_id, titel, fak, univ, doz) P1.Kurs(kurs_id, titel, fak, univ, fach, doz), doz = ‚Freytag‘
P1.
Kur
s(ku
rs_i
d, ti
tel,
fak,
uni
v, fa
ch, d
oz)
P
6.E
vent
(kur
s_id
, fac
h, ti
tel)
P5.
DB
_Kur
s(ku
rs_i
d, ti
tel,
fak,
uni
v, d
oz)
P6.
Eve
nt(k
urs_
id, a
rt, t
itel)
100 %
10 %
100 %
10 %
100 %
100 %
Sel
ektiv
ität
(Anz
ahl d
er E
rg.tu
pel b
ezog
en a
uf g
esam
ntes
PD
MS
)
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 27
Vollständigkeits-gesteuerte Anfragebearbeitung [RN05] Idee: Mappings mit geringem
Informationsverlust bevorzugen
Beschneiden des Suchraums Strategien
Threshold-basiertes Beschneiden (s. Diagramm)
Budget-gesteuertes Vorgehen Implementiert in System P
:
e
0
0.2
0.4
0.6
0.8
1
100 200 300 400 500Cost( #mappings used)
withoutp runingmoderate pruning
strong pruning
Peer 005:Pe er
LS00 1_1:Loc alSou rce
LS00 5_1:Lo ca lSou r ce
LS004_ 1:Lo ca lSourc e
LS003_1:Lo c alSo ur c e
Pe er00 6:Peer
LS00 6_ 1:Lo c alSourc e
Peer 007:Peer
Pe er0 08 :Peer
Pee r009:Peer
Peer01 0:Peer
LS00 7_1:Lo ca lSourc e
LS00 8_1:Lo calSourc e
LS00 9_ 1:Lo ca lSourc e
LS01 0_1:Lo c alSou rc e
Peer004:Peer
Peer 003:Pe er
Peer0 01:Pe er
LS00 2_1:Loc a lSou rc ePee r0 02:
Peer
L
L
L
LL
L
L
L
L
L
L
L
L
L
LL
L
L
L
L
L
L
L
L
L
L
LL
L
L
L
L
L
L
L
L
L
Cost (# mappings used)C
ompl
eten
ess
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 28
Überblick Skalierbare und flexible
Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 29
Piazza [HIST03, TH04] Semantik: First order Logic (FOL)
gesamtes PDMS hat eine Semantik Anfragen:
Subset von XQuery Punktanfragen mit Negation
Containment-basiertes Pruning von geschachtelten XQuery-Anfragen
Minimalisierung umformulierter Anfragen
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 30
Hyper [CGLR04] Epistemische Logik:
Jeder Peer hat eigene Semantik Peers geben nur weiter, was sie sicher wissen
Vorteile Peers sind wirklich modulare Einheiten Ermittlung aller Certain Answers ist in
polynomieller Datenkomplexität (FOL-Semantik: unentscheidbar)
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 31
System P [RN05] Relationales Datenmodell mit
Punkt- und Range-Anfragen GaV- und LaV-Umformulierung Vollständigkeits-gesteuerte
Anfragebearbeitung Visualisierung der
Anfragebearbeitung Aktuelle Entwicklung:
Selektivitätsschätzung mit selbstadaptiven Histogrammen
Ausblick: Kostenmodell, Parallele Anfragebearbeitung
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 32
Zusammenfassung + Ausblick PDMS:
Dezentral organisiert (kein globales Schema) Hohe Flexibilität und Dynamik Ineffizienz durch Redundanzen Informationsverluste entlang Mapping-Pfade Vollständigkeits-basierte Anfragebearbeitung
Ausblick: Kostenmodell Management von Schemata und Mapping-Netzen Erweitern von Peer-Schemata (Schema-Discovery)
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 33
Studien-/DiplomarbeitsthemenSystem P Parallele Anfragebearbeitung und
Budget-Strategien (Experimente) Ranking von Anfrageergebnissen
nach Relevanz u.v.m.
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 34
Diplomarbeiten Cross-domain PDM
CAD E/E …
Enterprise-PDM-Backbone
P P R WfMS-
Funktionalität (z.B. Änderungs-, Konfigurations- und Freigabeprozesse)
Datenmanagement• Informationsmodelle• Constraints• Instanzen• Anfragebearbeitung• Access Limitations
(bzgl. Zugriffsmethoden)
• Authorisierung
gegeben
Integration• Mappings
zwischen Informationsmodellen
• Mappings zwischen Prozess-Metamodellen
• Prozess-Synchronisation
gesuchtSchema Mapping Tool (Data/Schema Interplay)
Semantic Description of Data Services in a SOA
Enterprise Model Management (in a SOA context)
Skalierbare und flexible InformationsintegrationStruktur eines PDMS
Anfragebearbeitung in PDMSOptimierungsansätzeForschungssysteme
Diplomarbeiten
19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 36
Literatur[CGLR04] Calvanese, D., Giacomo, G.D., Lenzerini, M., Rosati, R.: Logical foundations of peer-to-
peer data integration. In: Proc. of the Symposium on Principles of Database Systems (PODS), 2004.
[HIST03] Halevy, A.Y., Ives, Z., Suciu, D., Tatarinov, I.: Schema mediation in peer datamanagement systems. In: Proc. of the Int. Conf. on Data Engineering (ICDE),2003.
[Hübn06] Hübner, T.: Entwicklung einer Testumgebung für ein Peer DataManagement System. Humboldt-Universität zu Berlin, Diplomarbeit, 2006.
[RN05] Roth, A., Naumann, F.: Benefit and cost of query answering in PDMS. In: Proc. of the Int. Workshop on Databases, Information Systems and Peer-to-Peer Computing (DBISP2P), 2005.
[Schw06] Schweigert, M.: Entwurf eines Peer Data Management Systems mitSteuerungs- und Simulationskomponente. Humboldt-Universität zu Berlin, Diplomarbeit, 2006.
[TH05] Tatarinov, I., Halevy, A.: Effcient query reformulation in peer data management systems. In: Proc. of the ACM Int. Conf. on Management of Data (SIGMOD), 2004.