Peer Data Management Systems (PDMS) Berlin, 19. Januar 2005 Armin Roth [email protected] Humboldt-Universität zu Berlin

Peer Data Management Systems (PDMS)

Berlin, 19. Januar 2005Armin Roth

[email protected]

Humboldt-Universität zu Berlin

19. Januar 2005 Armin Roth, Humboldt-Universität zu Berlin 2

Überblick Skalierbare und flexible

Informationsintegration Struktur eines PDMS Anfragebearbeitung in PDMS Optimierungsansätze Forschungssysteme Diplomarbeiten


Rückblick: Integrierte Informationssysteme Globales Schema Direkter Zugriff auf jedes Quellsystem

Oracle,DB2…

Web Service

Anwen-dung

HTML Form

Datei-system

Integriertes Informationssystem


Nachteile integrierter Informationssysteme Globales Schema:

Komplex Einigungsprozess erforderlich Wartung bedeutet (aufwändige) Schema-Evolution Praxis bevorzugt dynamische Integration mit “ähnlichen”

Informationssystemen→ Skalierbarkeit, Flexibilität problematisch

Mediator: Single point of … Control Failure Maintenance


Beispiel:Standardisiertes Schema ISO 10303 (STEP):

Standard for Exchange of Product Data Teilschema Grunddaten für Automotive Mech

anik-Entwurfsprozess (ISO 10303-214) Entstanden in langem

Standardisierungsprozess Datentransformation aufwändig


PDMS als Generalisierung integrierter Informationssysteme Integration bereits existierender

integrierter Informationssysteme Beispielsweise bei

Firmenzusammenschlüssen Reorganisationen

Integriertes Informationssystem 1

Integriertes Informationssystem 2





Peers: Integrierte Informationssysteme

Peer Schema

Lokale Datenquellen (lokales Schema)

Funktionalität Anfragen initiieren Anfragen auswerten Anfragevermittlung

(Mediation)

Lokale Mappings

Peer Mappings


P1

P2

P5

P4 P6


Mappings eines Peers Formalismen

GLaV, GaV, LaV Equality und

Inclusion Mappings Inclusion Mappings sind

gerichtet

P RL

GLaV-Mapping:Q1(P1) Q2(P2)

(Q1, Q2 : Anfragen über Peer-Mengen)

M

M: R(x, y) L(x, y)


Anwendungen für PDMS Wichtige Annahmen:

Peers reichen Anfragen weiter und geben auch Daten als Anfrageergebnis zurück,

die sie selbst von anderen Peers erhalten haben Denkbare Anwendungen

Wissenschaftliche Daten (z.B. Life Sciences) Katastrophen-Management Gesundheitsmanagement Allgemein: Semantic Web





P1 Kurs kurs_id titel fak univ fach doz

P2

P5

Kurs kurs_id titel Lehrt prof kurs_id sem eval fak

DB_Kurs kurs_id titel fak univ doz

Arbeitet prof fach ort

Event event_id art titel

Fak fak fach

P4 P6

P6.Event(kurs_id, fach, titel) P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)

P4.Arbeitet(prof, fach, ort) P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)

P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak),P2.Fak(fak, fach) P1.Kurs(kurs_id, titel, fak, univ, fach, doz)

P5.DB_Kurs(kurs_id, titel, fak, univ, doz) P1.Kurs(kurs_id, titel, fak, univ, fach, doz)

P1.

Kur

s(ku

rs_i

d, ti

tel,

fak,

uni

v, fa

ch, d

oz)

P

6.E

vent

(kur

s_id

, fac

h, ti

tel)

P5.

DB

_Kur

s(ku

rs_i

d, ti

tel,

fak,

uni

v, d

oz)

P6.

Eve

nt(k

urs_

id, a

rt, ti

tel)


Anfragebearbeitung: Rule-Goal Tree [HIST03] Goal-Knoten :

Prädikate (umformulierter) Anfrage(n) + zugehörige Vergleichsprädikate

Rule-Knoten : entsprechen Peer-Mappings

P.q(x, y)

Q

P.L(x, y), x > 0

P RL

P.R(x, y), x > 0

Q: q(x, y) :– P.R(x, y), x > 0

M: R(x, y) L(x, y)

M


GaV-Anfrageumformulierung

[] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () M12

[] Peer002.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) [] Peer002.Fak(fak, fach)

P1 Kurs kurs_id titel fak univ fach doz 20%

P2


Fak fak fach

40%

M12

Q: P1.q(kurs_id, titel, fak, univ, fach, doz) :– P1.Kurs(kurs_id, titel, fak, univ, fach, doz)



LaV-Anfrageumformulierung

[] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () M12

[] Peer002.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () M24

[] Peer004.Arbeitet(prof__1, fach, ort__6) [unc] Peer002.Fak(fak, fach) [] Peer002.Fak(fak, fach)

P2



Fak fak fach

40%

10%

P4P4.Arbeitet(prof, fach, ort) P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)


Behandlung von Zyklen Equality-Mappings bedeuten Zyklen:

Q1(P1) = Q2(P2) Q1(P1) Q2(P2) Q1(P1) Q2(P2)

First-order Logic-Semantik: Anfragebearbeitung bei Zyklen unentscheidbar [HIST03, CGLR04]

Abbruchkriterien (z.B. mehrfache Verwendung eines Mappings): verliert u.U. Antworten [Schw06]

Q

P2

MP1P2

P2


P1 Kurs kurs_id titel fak univ fach doz

P2

P5





Fak fak fach

P4 P6

Mapping-Zyklus


[] Peer001.q(kurs_id, titel, fak, univ, fach, doz) () Q [] Peer001.Kurs(kurs_id, titel, fak, univ, fach, doz) () ML1

[] LS001_1.Kurs(kurs_id, titel, fak, univ, fach, doz) () M12

[] Peer002.Kurs(kurs_id, titel) () M26

[] Peer006.Event(event_id__4, art__5, titel) () M65

[] Peer005.DB_Kurs(kurs_id__8, titel, fak__9, univ__10, doz__11) () ML5

[] LS005_1.DB_Kurs(kurs_id__8, titel, fak__9, univ__10, doz__11) () M61

[] Peer001.Kurs(event_id__4, titel, fak__12, univ__13, art__5, doz__14) () ML1

[] LS001_1.Kurs(event_id__4, titel, fak__12, univ__13, art__5, doz__14) () M15

[] Peer005.DB_Kurs(event_id__4, titel, fak__12, univ__13, doz__14) () ML5

[] LS005_1.DB_Kurs(event_id__4, titel, fak__12, univ__13, doz__14) [unc] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) [unc] Peer002.Fak(fak, fach) () ML2

[] LS002_1.Kurs(kurs_id, titel) [] Peer002.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () ML2

[] LS002_1.Lehrt(prof__1, kurs_id, sem__2, eval__3, fak) () M24

[] Peer004.Arbeitet(prof__1, fach, ort__6) () ML4

[] LS004_1.Arbeitet(prof__1, fach, ort__6) [unc] Peer002.Fak(fak, fach) [] Peer002.Fak(fak, fach) () ML2

[] LS002_1.Fak(fak, fach) () M15

[] Peer005.DB_Kurs(kurs_id, titel, fak, univ, doz) () ML5

[] LS005_1.DB_Kurs(kurs_id, titel, fak, univ, doz)

M12 wird nicht mehr genutzt: Abbruch des Zyklus


Anfrageumformulierung und Vergleichsprädikate Überlappung Vergleichprädikate

von Nutzer-Anfrage und Mappings Entlang von Mapping-Pfaden akkumulieren

sich Selektionen und verringern die Kardinalität des Anfrageergebnisses


Ableitung des Anfrageplanes Verzweigender Goal-Knoten: UNION Verzweigender Rule-Knoten: JOIN

P1.Kurs

P1.q

Q

P2.Kurs P2.Lehrt

P4.Arbeitet

Peer002.q

UNION

JOIN

UNION

UNION

P2.Fak

JOIN

(deckt P2.Lehrt und P2.Fak ab)


Effizienzprobleme durch Redundanzen Redundante Mapping-Pfade

führen zu stark verzweigten Rule-Goal Trees

Beispiel [Schw06]: 31 Peers Rang ca. 5

(Anzahl von Peers, zu denen ein Peer Mappings hat)

34378 Union- und 17035 Join-Operationen





Containment-based Pruning [TH04] PDMS Piazza (s.u.) Pruning von h, wenn

(i) g (alle Antworten von) h enthält (g und h müssen am selben Peer liegen)(ii) keine Joins zwischen g und f

Vorteil: Steigerung der Effizienz um etwa eine

Grössenordnung Keine Antworten gehen verloren

Nachteil: f bzw. g und h können an

unterschiedlichen Peers liegen (hier P* bzw. P) Kenntnis nicht-lokaler Teile des Rule-Goal Tree erforderlich

Eingriff in (Kommunikations-) Autonomie der Peers

…

…

…

Q

P*.f

P.hP.g


Qualitätsgesteuerte Anfragebearbeitung Wichtiges Qualitätskriterium in

Informationsintegration: Vollständigkeit Extensionale Vollständigkeit: Tupelanteil Intensionale Vollständigkeit: Dichte von

Datenwerten ( NULL) Projektionen und Selektionen in Peer-

Mappings führen zu Informationsverlust Konzessionen an Vollständigkeit


P1 Kurs kurs_id titel fak univ fach doz 20%

P2

P5





Fak fak fach

80%

10%

P4 P6

20%

P6.Event(kurs_id, fach, titel) P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach)

P4.Arbeitet(prof, fach, ort) P2.Kurs(kurs_id, titel), P2.Lehrt(prof, kurs_id, sem, eval, fak), P2.Fak(fak, fach), ort 10000, ort 11000


P5.DB_Kurs(kurs_id, titel, fak, univ, doz) P1.Kurs(kurs_id, titel, fak, univ, fach, doz), doz = ‚Freytag‘

P1.

Kur

s(ku

rs_i

d, ti

tel,

fak,

uni

v, fa

ch, d

oz)

P

6.E

vent

(kur

s_id

, fac

h, ti

tel)

P5.

DB

_Kur

s(ku

rs_i

d, ti

tel,

fak,

uni

v, d

oz)

P6.

Eve

nt(k

urs_

id, a

rt, t

itel)

100 %

10 %

100 %

10 %

100 %

100 %

Sel

ektiv

ität

(Anz

ahl d

er E

rg.tu

pel b

ezog

en a

uf g

esam

ntes

PD

MS

)


Vollständigkeits-gesteuerte Anfragebearbeitung [RN05] Idee: Mappings mit geringem

Informationsverlust bevorzugen

Beschneiden des Suchraums Strategien

Threshold-basiertes Beschneiden (s. Diagramm)

Budget-gesteuertes Vorgehen Implementiert in System P

:

e

0

0.2

0.4

0.6

0.8

1

100 200 300 400 500Cost( #mappings used)

withoutp runingmoderate pruning

strong pruning

Peer 005:Pe er

LS00 1_1:Loc alSou rce

LS00 5_1:Lo ca lSou r ce

LS004_ 1:Lo ca lSourc e

LS003_1:Lo c alSo ur c e

Pe er00 6:Peer

LS00 6_ 1:Lo c alSourc e

Peer 007:Peer

Pe er0 08 :Peer

Pee r009:Peer

Peer01 0:Peer

LS00 7_1:Lo ca lSourc e

LS00 8_1:Lo calSourc e

LS00 9_ 1:Lo ca lSourc e

LS01 0_1:Lo c alSou rc e

Peer004:Peer

Peer 003:Pe er

Peer0 01:Pe er

LS00 2_1:Loc a lSou rc ePee r0 02:

Peer

L

L

L

LL

L

L

L

L

L

L

L

L

L

LL

L

L

L

L

L

L

L

L

L

L

LL

L

L

L

L

L

L

L

L

L

Cost (# mappings used)C

ompl

eten

ess





Piazza [HIST03, TH04] Semantik: First order Logic (FOL)

gesamtes PDMS hat eine Semantik Anfragen:

Subset von XQuery Punktanfragen mit Negation

Containment-basiertes Pruning von geschachtelten XQuery-Anfragen

Minimalisierung umformulierter Anfragen


Hyper [CGLR04] Epistemische Logik:

Jeder Peer hat eigene Semantik Peers geben nur weiter, was sie sicher wissen

Vorteile Peers sind wirklich modulare Einheiten Ermittlung aller Certain Answers ist in

polynomieller Datenkomplexität (FOL-Semantik: unentscheidbar)


System P [RN05] Relationales Datenmodell mit

Punkt- und Range-Anfragen GaV- und LaV-Umformulierung Vollständigkeits-gesteuerte

Anfragebearbeitung Visualisierung der

Anfragebearbeitung Aktuelle Entwicklung:

Selektivitätsschätzung mit selbstadaptiven Histogrammen

Ausblick: Kostenmodell, Parallele Anfragebearbeitung


Zusammenfassung + Ausblick PDMS:

Dezentral organisiert (kein globales Schema) Hohe Flexibilität und Dynamik Ineffizienz durch Redundanzen Informationsverluste entlang Mapping-Pfade Vollständigkeits-basierte Anfragebearbeitung

Ausblick: Kostenmodell Management von Schemata und Mapping-Netzen Erweitern von Peer-Schemata (Schema-Discovery)


Studien-/DiplomarbeitsthemenSystem P Parallele Anfragebearbeitung und

Budget-Strategien (Experimente) Ranking von Anfrageergebnissen

nach Relevanz u.v.m.


Diplomarbeiten Cross-domain PDM

CAD E/E …

Enterprise-PDM-Backbone

P P R WfMS-

Funktionalität (z.B. Änderungs-, Konfigurations- und Freigabeprozesse)

Datenmanagement• Informationsmodelle• Constraints• Instanzen• Anfragebearbeitung• Access Limitations

(bzgl. Zugriffsmethoden)

• Authorisierung

gegeben

Integration• Mappings

zwischen Informationsmodellen

• Mappings zwischen Prozess-Metamodellen

• Prozess-Synchronisation

gesuchtSchema Mapping Tool (Data/Schema Interplay)

Semantic Description of Data Services in a SOA

Enterprise Model Management (in a SOA context)

[email protected]

Skalierbare und flexible InformationsintegrationStruktur eines PDMS

Anfragebearbeitung in PDMSOptimierungsansätzeForschungssysteme

Diplomarbeiten


Literatur[CGLR04] Calvanese, D., Giacomo, G.D., Lenzerini, M., Rosati, R.: Logical foundations of peer-to-

peer data integration. In: Proc. of the Symposium on Principles of Database Systems (PODS), 2004.

[HIST03] Halevy, A.Y., Ives, Z., Suciu, D., Tatarinov, I.: Schema mediation in peer datamanagement systems. In: Proc. of the Int. Conf. on Data Engineering (ICDE),2003.

[Hübn06] Hübner, T.: Entwicklung einer Testumgebung für ein Peer DataManagement System. Humboldt-Universität zu Berlin, Diplomarbeit, 2006.

[RN05] Roth, A., Naumann, F.: Benefit and cost of query answering in PDMS. In: Proc. of the Int. Workshop on Databases, Information Systems and Peer-to-Peer Computing (DBISP2P), 2005.

[Schw06] Schweigert, M.: Entwurf eines Peer Data Management Systems mitSteuerungs- und Simulationskomponente. Humboldt-Universität zu Berlin, Diplomarbeit, 2006.

[TH05] Tatarinov, I., Halevy, A.: Effcient query reformulation in peer data management systems. In: Proc. of the ACM Int. Conf. on Management of Data (SIGMOD), 2004.

Documents

Peer Data Management Systems (PDMS) Berlin, 19. Januar 2005 Armin Roth [email protected] Humboldt-Universität zu Berlin