The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut

The Minerva ProjectThe Minerva ProjectDatabase Selection Database Selection

in the Context of P2P Searchin the Context of P2P Search

Christian Zimmer, Matthias Bender,

Sebastian Michel, Gerhard Weikum

Max-Planck-Institut für Informatik

Saarbrücken

11. GI-Fachtagung für Datenbanksysteme in Business, Technologie und Web

2.- 4.März 2005, Karlsruhe

The Minerva Project: Database Selection in the Context of P2P SearchChristian Zimmer, Max-Planck-Institut für Informatik

2

MotivationMotivation

MotivationMotivation Überblick Grundlagen Systemarchitektur Strategien Experimente FazitÜberblick Grundlagen Systemarchitektur Strategien Experimente Fazit

Diese Suchmaschinenkennt jeder!

Reicht uns das wirklich???

Wie wäre es miteiner verteilten

P2P-Suchmaschine??


3

MotivationMotivation

MotivationMotivation Überblick Grundlagen Systemarchitektur Strategien Experimente FazitÜberblick Grundlagen Systemarchitektur Strategien Experimente Fazit

Jeder Rechner arbeitetals Suchmaschineauf seinen Daten!

Warum nur eine Instanz anfragen, wenn man

Tausende anfragen könnte?Aber warum Tausende Instanzen

anfragen, wenn es schon ausreicht, nur die besten zu fragen??

Dies ist keine Meta-Suchmaschine!


4

Überblick über den VortragÜberblick über den Vortrag Motivation Überblick Grundlagen

Peer-to-Peer

Systemarchitektur von Minerva Strategien zur Peerselektion Experimente

Aufbau Ergebnisse

Schlussfolgerungen & Ausblick

Im AnschlussIm Anschluss:: Fragen

Motivation Motivation ÜberblickÜberblick Grundlagen Systemarchitektur Strategien Experimente FazitGrundlagen Systemarchitektur Strategien Experimente Fazit


5

Grundlagen – Peer-to-Peer Systeme (1)Grundlagen – Peer-to-Peer Systeme (1) Begriff: Dezentralisierte, selbstorganisierende, stark dynamische lose

Kopplung von vielen unabhängigen Rechnern zu einem gemeinsamen Rechnersystem

Wichtigsten Vorteile Hohe Skalierbarkeit Lastbalancierung Keine einzelne Fehlerpunkte

Bekannte Probleme Hohe Dynamik Vertraulichkeit der Daten Anreizproblematik

Motivation ÜberblickMotivation Überblick Grundlagen Grundlagen Systemarchitektur Strategien Experimente FazitSystemarchitektur Strategien Experimente Fazit

Peer-to-PeerNetzwerk


6

Grundlagen – Peer-to-Peer Systeme (2)Grundlagen – Peer-to-Peer Systeme (2) Fundamentale Problemstellung: effizientes Auffinden von Knoten

(Peers) in einer verteilten P2P-Umgebung

Verschiedene ArchitekturenVerschiedene Architekturen

Unstrukturierte P2P-Systeme (Gnutella u.a.) Nachrichten werden an die Nachbarknoten rekursiv weitergeleitet Nachteil unnötiger Nachrichten bzw. nicht alle relevanten Knoten werden

notwendigerweise erreicht

Strukturierte P2P-Systeme (CHORD, CAN u.a.) Bauen auf verteilten Hashtabellen (DHTs) auf Ordnen jedem Schlüssel einen Peer auf eine verteilte Art zu Einzige Methode: lookup() in O(log n) Schritten

Wir benutzen CHORD als P2P Routing NetzwerkWir benutzen CHORD als P2P Routing Netzwerk


? ?? ?


7

SystemarchitekturSystemarchitekturWie wird es nicht funktionieren?

P2P Suchmaschine ist keine File-Sharing Software mit Suche nach Dateinamen – wir wollen Multi-Keyword-Suche und Ergebnis-Rangfolgen!

Ein zentrales Verzeichnis können wir uns nicht erlauben Anfrage-Flooding ist absolut ineffizient Verteiltes Indizieren aller Dokumente ist viel zu aufwändig

Motivation Überblick GrundlagenMotivation Überblick Grundlagen SystemarchitekturSystemarchitektur Strategien Experimente FazitStrategien Experimente Fazit

So einfach istP2P-Suche nicht!


8

Systemarchitektur von MINERVA (1)Systemarchitektur von MINERVA (1)Wichtigsten EigenschaftenWichtigsten Eigenschaften

Konzeptionell zentrales, aber physisch verteiltes Verzeichnis.

Jeder Peer veröffentlicht Meta-Informationen (Posts) zu jedem Term im lokalen Verzeichnis.

Für jeden Term ein verantwortlicher Peer, welcher Peerliste aller bekannten Posts zum Term verwaltet.

CHORD für Zuordnung zwischen Term und Peer zuständig; somit jeder Peer für disjunkte Teilmenge aller Terme zuständig.

Meta-Informationen im globalen Verzeichnis um Anfragen zu geeigneten Peers zu schicken


P4

Posts

Peer

lokalerIndex

P1

P3

P2


9

Systemarchitektur von MINERVA (2)Systemarchitektur von MINERVA (2)


a: P1 P6 P4

b: P5 P3 P1 P6 ...

Schritt 0:Veröffentlichen von

pro-termZusammenfassungen

der lokalen Indizes

Verteiltes VerzeichnisTerm Peerliste

P1

P5

P6 P4

P2

P3

Schritt 2:Abrufen und

Zusammenführen der lokalen Ergebnisse

der Peers

P4

P5

P1

P2

P3

P6

Schritt 1:Abrufen von Peerlisten

für jeden Term der Query

Verteiltes VerzeichnisTerm Peerliste

P1

P5

P6

P2

P3

P4

AnfrageVerarbeitung


10

Strategien zur PeerselektionStrategien zur Peerselektion Ziel: Das Finden der Peers mit den besten Resultaten zu einer

gegebenen Anfrage.

Vorgehensweise in 2 SchrittenVorgehensweise in 2 Schritten

Identifizierung möglicher Kandidaten Durch Abfragen des globalen Verzeichnisses

Ermittlung der vielversprechendsten Kandidaten Durch Berechnung eines Gütemaßes für jeden möglichen Kandidaten Mit den Peerlisten müssen Statistiken zu den einzelnen

Peers an den anfragenden Peer verschickt werden

Mögliche Erweiterungen Kostenbetrachtungen im Gütemaß Unterschiedliche Gewichtung der Anfrageterme

Motivation Überblick Grundlagen SystemarchitekturMotivation Überblick Grundlagen Systemarchitektur StrategienStrategien Experimente FazitExperimente Fazit


11

Peerselektion – StatistikenPeerselektion – Statistiken


Peer 1

D1

D3

D5

Peer 2

D2

D3

D4

Peer 3

D2

D6

32 2 0

Dokumentenhäufigkeitinnerhalb eines Peers

cdf

11 1 2

Max. Termhäufigkeitinnerhalb eines Peers

ctfmax

Zahl derDokumentepro Peer |C|

Zahl derTerme

pro Peer |V|

2 3

33 3 2

Peerhäufigkeit für einen Termcf


12

Verschiedene StrategienVerschiedene Strategiencdf - ctf cdf - ctf maxmax – Ansatz – Ansatz

Einfacher ad-hoc Ansatz aus cdf und ctf max

Berücksichtigt nur lokale Statistiken

CORI – AnsatzCORI – Ansatz

Kombiniert kollektionsspezifische Statistiken mit globalen Statistiken (cf)

Bei beiden Ansätzen:


Qt

tii ss ,


13

Weitere AnsätzeWeitere AnsätzeGlOSS – AnsatzGlOSS – Ansatz

ebenfalls kollektionsspezifische Statistiken und globale Statistiken kombiniert

Ansätze basierend auf statistischen SprachmodellenAnsätze basierend auf statistischen Sprachmodellen

So genannte Language Models (LM) Basieren auf statistischen Modellen und Wahrscheinlichkeiten Wir benutzen zwei verschiedene LM:

Language Model nach Callan Language Model nach Xu & Croft

Statistiken werden allerdings nur über die Statistiken der Peers in den Peerlisten berechnet – nicht über alle Peers im System



14

Experimente – AufbauExperimente – Aufbau

Motivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit

AnfrageresultatPeer 1

AnfrageresultatPeer 2

AnfrageresultatPeer n

Strategie XPeer Reihenfolge

Peer 2

Peer 1

Peer 1

Peer 2

Strategie YPeer Reihenfolge

Schritt 1 Berechne

Distanzmaß

IdealesReferenzresultat

IdealePeer Reihenfolge

Peer 1

Peer 2

Schritt 2 Ordne nach Distanzmaß

Schritt 3 DistanzmaßBerechnung

10 thematisch fokussierte Kollektionen, eine Referenz-Kollektion10 Anfragen mit 2 bis 5 Termen pro Anfrage, z.B. George Bush Iraq


15

Experimente – Distanzmaß BeispieleExperimente – Distanzmaß Beispiele


1

3

4

2

Pos

ReferenzReihenfolge

1

5

6

Distanz

Strategie 1Reihenfolge

2

4

Distanz


2

8

Distanz


2

Mindestlänge / Vergleichslänge 3

2

2

2

0

4

0

2

3

3


16

Experimente – Resultate (1)Experimente – Resultate (1)

Durchschnittliche DistanzenDurchschnittliche Distanzen

20,2

17,8 17,816,6

21,4

22,2 22,0

0

5

10

15

20

25

cdf-ctf(0.0)

cdf-ctf(0.6)

cdf-ctf(1.0)

CORI GlOSS LM Callan LMXu&Croft



17



0

5

10

15

20

25

30

35

1 2 3 4 5 6 7 8 9 10

Zahl angefragter Peers

Ausbeute in Anzahl relevanter DokumenteAusbeute in Anzahl relevanter Dokumente


18



0,0010

0,0015

0,0020

0,0025

0,0030

0,0035

0,0040

0,0045

0,0050

1 2 3 4 5 6 7 8 9 10

Zahl angefragter Peers

Verhältnis relevante Dokumente / AusführungszeitVerhältnis relevante Dokumente / Ausführungszeit


19

Schlussfolgerungen und AusblickSchlussfolgerungen und AusblickZusammenfassungZusammenfassung Minerva ist eine Peer-to-Peer Suchmaschine, die skalierbar und deren

Systemarchitektur erweiterbar ist. Experimente mit verschiedenen Peerselektions-Strategien zeigen

unterschiedliche Ergebnisse, aber v.a. dass es reicht, nur wenige Peers anfragen zu müssen.

Zukünftige ArbeitZukünftige Arbeit Welche Strategien lassen sich beim Zusammenführen (Result

Merging) der Ergebnislisten anwenden (zur Zeit nur ein einfacher Ansatz basierend auf Termhäufigkeiten der lokalen Kollektionen)

Lassen sich Overlap zwischen einzelnen Kollektionen bereits bei der Peerselektion ausnutzen.

Können benutzerspezifische Eigenschaften (Bookmarks) zur Peerselektion benutzt werden

Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteMotivation Überblick Grundlagen Systemarchitektur Strategien Experimente FazitFazit


20

Screenshot der Prototypen-GUIScreenshot der Prototypen-GUI

Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteMotivation Überblick Grundlagen Systemarchitektur Strategien Experimente FazitFazit

Vielen Dank für die AufmerksamkeitVielen Dank für die Aufmerksamkeit

Fragen?Fragen?

ReservefolienReservefolien

Das Distanzmaß

Information Retrieval

cdf-ctfmax – Ansatz

CORI – Ansatz

Experimente Setup

Performanz Resultate


23

Experimente - DistanzmaßExperimente - Distanzmaß Ziel: Vergleich der Anfrageergebnisse der einzelnen Peers mit dem

Referenzanfrageergebnis und Vergleich der Peer-Reihenfolgen der einzelnen Strategien mit der Referenz-Peer-Reihenfolge.

Bekannte Metriken: Spearman‘s Footrule oder Kendall‘s Tau Metrik vergleichen zwei Rangfolgen 1 und 2 mit gleichen Definitionsmengen (: D [k] mit |D|=k und [k]={1,…,k}).

Problem: In beiden Fällen haben wir unvollständige Rangfolgen und vergleichen möglicherweise unterschiedlich lange Rangfolgen (2) mit einer Referenzrangfolge (1)

Unser Ansatz des DistanzmaßesUnser Ansatz des Distanzmaßes

Gegeben: 1 mit D1 und 2 mit D2

Summierung nur über D2

Erweiterung von 1 notwendig (1(i)=|D 1| für i D1)

Unterschiedliche Länge von 2 wird ausgeglichen durch Erweiterung auf Mindestlänge (Einfügen von künstlichen Dokumenten mit Rang | D1|+1)

Unsymmetrisches DistanzmaßMotivation Überblick Grundlagen Systemarchitektur Strategien Motivation Überblick Grundlagen Systemarchitektur Strategien ExperimenteExperimente FazitFazit

2

)()(),( 1221

Di

iiF


24

Grundlagen – Information RetrievalGrundlagen – Information Retrieval Begriff: IR-Systeme speichern große Mengen an schwach

strukturierten oder unstrukturierten Daten (Text, HTML) und stellen Suchfunktionen zur Verfügung, um relevante Dokumente zu einer Anfrage zu berechnen

Verschiedene KonzepteVerschiedene Konzepte

Invertierte Indexlisten Zu jedem Term wird eine Liste von IDs von Dokumenten gespeichert, die

den Term enthalten.

TF*IDF-Maß Relevanzmaß für ein Dokument bezogen auf einen Suchterm basierend auf

Termhäufigkeiten.

Top-K Anfragen Bei einer Suchanfrage interessieren nur die „besten K Ergebnisse“ bzgl.

eines gewählten Relevanzmaßes.



25

cdf – ctf cdf – ctf maxmax Ansatz Ansatz Einfacher ad-hoc Ansatz kombiniert die Dokumenthäufigkeiten

innerhalb einer Kollektion (cdf) mit der maximalen Termhäufigkeit einer Kollektion (ctf max)

Die Werte für die einzelnen Terme werden aufsummiert und die Peer-Reihenfolge ergibt sich als absteigende Folge dieser Summen

Berücksichtigung nur lokaler Statistiken; keine globale Statistiken über alle Peers

Der Parameter zwischen 0 und 1 bestimmt den Einfluss von cdf bzw. ctf max

Ähnlichkeit si des i-ten Peer Pi bzgl. einer Anfrage Q = {t1,...tn}


Qt

titii ctfcdfs max,, log1log


26

CORI – Ansatz (Callan 00)CORI – Ansatz (Callan 00) Dieser Ansatz kombiniert die kollektionsspezifischen Statistiken mit

globalen Statistiken, um die Ähnlichkeiten besser bewerten zu können. Die Werte für die einzelnen Terme werden aufsummiert und die Peer-

Reihenfolge ergibt sich als absteigende Folge dieser Summen:

Die Ähnlichkeiten si,t berechnen sich wie:

Für die beiden Faktoren Ti,t und Ii,t ergibt sich die Berechnung:

mit = 0.4 np (~ maximale Größe des P2P-Netzwerks); cft (~ Länge der Peerliste

für Term t); Vi (Anzahl verschiedener Terme eines Peers); Vavg

Qt

tii Q

ss ,


avg

iti

titi

V

Vcdf

cdfT

15050,

,,

tititi ITs ,,, )1(

1log

5,0log

,

np

cf

np

I tti


27

Experimente - SetupExperimente - SetupKollektionen und AnfragenKollektionen und Anfragen

10 thematisch fokussierte Kollektionen (von 7.500 bis 33.000 Dokumenten) und eine Referenz-Kollektion (als Vereinigung mit Duplikateliminierung) mit 150.000 Dokumenten

10 Anfragen, davon 7 aus den häufigsten Anfragen der Websuch-maschine AltaVista und 3 weitere ausgewählte Anfragen, mit 2 bis 5 Termen pro Anfrage

Ablauf mit 10 Peers (je Peer eine Datenkollektion) und einer gemeinsamen Oracle Datenbank, die alle Kollektionen speichert

Einige Parameter mussten festgelegt werden Anzahl der Peers in der idealen Peer-Reihenfolge Anzahl der Peers in einer Peerliste Anzahl der Dokumente, die die Referenzkollektion liefert Anzahl der Dokumente, die die einzelnen Peers liefern



28

Experimente - PerformanzExperimente - PerformanzEinige Kennzahlen zur PerformanzEinige Kennzahlen zur Performanz

Ausführungszeit einer Anfrage liegt unter 2 Sekunden, wobei die lokale Anfrageausführung die Peer-Selektion klar dominiert.

Beim Veröffentlichen der Meta-Informationen werden bei einem Peer mit rund 45.000 Termen etwa 650 kB gesendet, wobei wir eine Datenkompression benutzen.

Eine Anfrage einer Peerliste benötigt etwa 150 Bytes, Die Peerliste selbst etwa 1000 Bytes (linear zu ihrer Länge)

Eine komplette Anfrage (2 Anfrageterme) benötigt 100 Bytes und die Rückgabe von 30 Resultaten etwa 2500 Bytes (inklusive aller Statistiken!).

Komplexität der Peerselektion: O(n*l+m*log(m)) Mit n als Zahl der Anfrageterme, l die maximale Länge einer Peerliste und m

als Anzahl der Peers


Documents

The Minerva Project Database Selection in the Context of P2P Search Christian Zimmer, Matthias Bender, Sebastian Michel, Gerhard Weikum Max-Planck-Institut