Information Retrieval - Ein Überblick · Information Retrieval Ein Überblick Ingo Frommholz...

Preview:

Citation preview

Information RetrievalEin Überblick

Ingo Frommholz

Universität Duisburg-Essen

Vorlesung "Information Engineering"SS 2007

UNIVERSITÄT

D U I S B U R GE S S E N

EinführungRetrievalmodelle

Web IR

Inhaltsverzeichnis

1 Einführung

2 Retrievalmodelle

3 Web Information Retrieval

Ingo Frommholz Information Retrieval 2/70

Einführung

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & Searching

Suche inTexten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Anwendungsgebiet

Klassisches Anwendungsgebiet: Suche auf Literaturdatenbanken

Populäres Beispiel: Internet-Suchmaschinen (Google & Co.)

Suche in wissensintensiven Aufgaben

Unterstützung des Information Seeking & SearchingSuche in

Texten (Dokumentretrieval)Multimedialen DatenFaktendatenbanken

Ingo Frommholz Information Retrieval 4/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Unterschiede zur Datenbanksuche

Formulierung des Informationsbedürfnisses als passendeAnfrage problematisch

Anfrage liefert sehr viele Treffer (siehe Google) , aber nur wenigesind interessant

Unsicherheit und Vagheit

Ingo Frommholz Information Retrieval 5/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Ingo Frommholz Information Retrieval 6/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Ingo Frommholz Information Retrieval 6/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Ingo Frommholz Information Retrieval 6/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Abstraktionsstufen für die Suche

Syntax Dokument als Zeichenkette von Symbolen,Zeichenkettensuche in Texten; Bildretrievalverfahren: Suche nachMerkmalen wie Farbe, Textur, Kontur

Semantik Bedeutung eines Dokuments, WissensrepräsentationSemantisches Bildretrieval: z.B. Suche nach Menschen,Häusern, etc.

Pragmatik Nutzung eines Dokuments für einen bestimmten Zweck(Beispiel: Literatursuche zu einem vorgegebenen Seminarthema)

Nutzer: Suche auf der pragmatischen Ebene

Gängige Retrievalverfahren: syntaktische und semantischeEbene

Ingo Frommholz Information Retrieval 6/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Grundmodell

Wissensstrukturen

internen

TransformationenWissensrepräsentation

Verfahren der

Retrieval

Informationen beim

Daten

Analyse von

Information Retrieval

auf

anhand von

liefert

gespeichert in

durch

beruht auf

Ingo Frommholz Information Retrieval 7/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispiel: Dokumentretrieval

liefertberuht auf

DBMS ?

Literatur gibt es deutschsprachigeWelche einführendeBeispiel:

(Dateien)Datenbankstrukturen

Boole’sche RetrievalRetrievaloperationen, wie z.B.

ReferierenIndexieren, Klassifizieren,

bibliographische ReferenzenDokumente bzw.

tarischen BezugseinheitenAnalyse von dokumen−

Document−Retrieval

gespeichert in auf

anhand vondurch

techn. Aspekten vonzu implementirungs−

Ingo Frommholz Information Retrieval 8/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispiel: Faktenretrieval

liefertberuht auf

gespeichert in auf

anhand vondurch

semantische Modellierungeines Weltausschnittes

Zuweisung von Attributenzu gegebenen Einheiten

Fakten einesWeltauschnittes

Kombination elementarerOperationen

im Umfang von mindes−tens einer halben Seitegeschaltet?

eine Anzeige imim letzten JahrWelche Firmen habenBeispiel:

Faktenretrieval

Datenbankstrukturen

Ingo Frommholz Information Retrieval 9/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche im INSPEC-System

INSPEC: INformation System for Physics, Electronics andComputingEnthält Dokumente, die Artikel oder Bücher beschreiben durch

bibliographische AngabenKurzzusammenfassung (Abstract oder Referat)Einordnung in hierarchisches IndexsystemStichwörter

Boolesches Retrievalsystem: liefert die Dokumente, die dieSuchbegriffe in der angegebenen Form enthalten

Ingo Frommholz Information Retrieval 10/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

INSPEC-Dokument

Ingo Frommholz Information Retrieval 11/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

INSPEC-Dokument

Ingo Frommholz Information Retrieval 11/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Beispielsuche

Literatur zum Stand der Forschung im Bereich

“Retrieval-Systeme für Multimedia-Objekte, insbesondere Bilder”

Formalisierung des Requests nötig (s.a. Relevanzdiskussion beiMizzaro)

Anfrage (Query):RETRIEVAL SYSTEM and MULTIMEDIA and IMAGES

Interpretation im booleschen Retrieval-System:Suche alle Dokumente, in denen jede der drei Zeichenkettenmindestens einmal im Text vorkommt.

Gefundenes Beispieldokument:‘‘Multimedia information retrieval system using knowledge forrecognition of images”

Ingo Frommholz Information Retrieval 12/70

EinführungRetrievalmodelle

Web IR

Was ist Information Retrieval?Grundmodell des Information RetrievalBeispielsuche in INSPEC

Ergebnisse verschiedener Suchanfragen

Ingo Frommholz Information Retrieval 13/70

Retrievalmodelle

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval

Historisch erstes Retrievalmodell

Ungewichtete Indexierung (nur Vorkommen eines Terms)

Liefert Zweiteilung in “gefundene” und “nicht gefundene”Dokumente

Ingo Frommholz Information Retrieval 15/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Attribute und Anfragen

Definition (Attribut)

Ein Attribut ist eine Abbildung t : D→ T , die einem Dokument d ∈ Deinen Attributwert ti ∈ T zuweist.

Definition (Anfrage)

Paar, das aus einem Attribut und einem dazugehörigen Attributwert(Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch dieOperatoren AND, OR und NOT verknüpft werden.

Ingo Frommholz Information Retrieval 16/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Attribute und Anfragen

Definition (Attribut)

Ein Attribut ist eine Abbildung t : D→ T , die einem Dokument d ∈ Deinen Attributwert ti ∈ T zuweist.

Definition (Anfrage)

Paar, das aus einem Attribut und einem dazugehörigen Attributwert(Attribut-Wert-Paar) besteht. Attribut-Wert-Paare können durch dieOperatoren AND, OR und NOT verknüpft werden.

Ingo Frommholz Information Retrieval 16/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesche Operationen

Sei t(d) = ti ein Attribut.

Menge der Dokumente, bei denen das Attribut t den Wert tiannimmt:

Dt,ti = t−1(ti) = {d ∈ D|t(d) = ti}

Diese Menge wird auf eine Anfrage, die nur aus demAttribut-Wert-Paar (t, ti) besteht, zurück geliefert

Boolesche Operationen

(t, t1) AND (s,s1) Durchschnitt Dt,t1 ∩Ds,s1

(t, t1) OR (s,s1) Vereinigung Dt,t1 ∪Ds,s1

NOT (t, t1) Komplement D \Dt,t1

Ingo Frommholz Information Retrieval 17/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Ingo Frommholz Information Retrieval 18/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Ingo Frommholz Information Retrieval 18/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Ingo Frommholz Information Retrieval 18/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval in Textdokumenten

Terme sind zusammenhängende Zeichenketten aus Buchstabenund bestimmten Sonderzeichen, die durch

Leerzeichen,Interpunktionszeichen undandere Sonderzeichen

begrenzt sind

Textdokumente: Attribute sind das Auftreten von Termen in denverschiedenen Feldern der Dokumente

Beispiel: Attribut TIti : D→{true, false} als Auftreten des Term tiim Titelfeld der Dokumente

DTIt1= {d ∈ D|TIt1(d) = true} bezeichnet dann alle Dokumente,

bei denen t1 im Titel vorkommt

Ingo Frommholz Information Retrieval 18/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Invertierte Listen

Ingo Frommholz Information Retrieval 19/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval mit invertierten Listen

Ingo Frommholz Information Retrieval 20/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Boolesches Retrieval mit invertierten Listen

Ingo Frommholz Information Retrieval 20/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stoppworteliminierung

Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”

Beispiel

Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.

Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I

hope they’ll build iphone helps news junkie get his fixslow edge data connection

Ingo Frommholz Information Retrieval 21/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stoppworteliminierung

Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”

Beispiel

Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.

Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I

hope they’ll build iphone helps news junkie get his fixslow edge data connection

Ingo Frommholz Information Retrieval 21/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stoppworteliminierung

Eliminiert häufig vorkommende und keinen Inhalt tragendeWörter wie “und”, “oder” bzw. “and”, “or”

Beispiel

Apple has a built-in RSS reader. Kinda. While it’snot the dedicated RSS client that I hope they’ll build foriPhone, it helps a news junkie get his fix on a slowEDGE data connection.

Nach Stoppworteliminierung:apple built-in rss reader kinda dedicated rss client I

hope they’ll build iphone helps news junkie get his fixslow edge data connection

Ingo Frommholz Information Retrieval 21/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-Algorithmus

Beispiel:computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Stemming

Zurückführung eines Wortes auf den Wortstamm

Dadurch werden mehr potentiell relevante Dokumente gefunden

Stemming-Verfahren für die englische Sprache:Porter-AlgorithmusBeispiel:

computer −→ computcomputers −→ computcomputing −→ comput

→ Suche nach ’computer’ findet auch Texte mit ’computing’

Vorheriges Beispiel nach Stemming und Stoppworteliminierungappl built rss read kinda dedic rss cli hop they build

iphon help new junki get his fix slow edg data connect

Ingo Frommholz Information Retrieval 22/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Nachteile des Booleschen Retrievals

– Größe der Antwortmenge schwierig zu kontrollieren

– Keine Ordnung der Antwortmenge

– Keine Gewichtung

– Trennung zu scharf

– Frageformulieung (boolescher Ausdruck) zu umständlich fürgelegentliche Nutzer

– schlechte Retrievalqualität

Ingo Frommholz Information Retrieval 23/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Vektorraummodell

Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.

Beschreibung eines Dokuments als Vektor von Termgewichten

dij ∈ R:~d = (dj1, . . . ,djn)

Vektorielle Beschreibung von Anfragen (mit qi ∈ R):

~q = (q1, . . . ,qn)

Ingo Frommholz Information Retrieval 24/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Vektorraummodell

Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.

Beschreibung eines Dokuments als Vektor von Termgewichten

dij ∈ R:~d = (dj1, . . . ,djn)

Vektorielle Beschreibung von Anfragen (mit qi ∈ R):

~q = (q1, . . . ,qn)

Ingo Frommholz Information Retrieval 24/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Vektorraummodell

Menge der Terme T = {t1, . . . , tn} spannt n-dimensionalenVektorraum auf.

Beschreibung eines Dokuments als Vektor von Termgewichten

dij ∈ R:~d = (dj1, . . . ,djn)

Vektorielle Beschreibung von Anfragen (mit qi ∈ R):

~q = (q1, . . . ,qn)

Ingo Frommholz Information Retrieval 24/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrievalfunktion

Berechnung eines Retrieval Status Value (RSV) mittels eines

Vektor-Ähnlichkeitmaßes, z.B. Skalarprodukt:

RSV (dj ,q) = ~dj ·~q =n∑

i=1

dji ·qi

t

t

1

2

q

d

d

1

2

Rangordnung der Dokumente nach absteigendem RSVIngo Frommholz Information Retrieval 25/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Beispiel-Frage

“side effects of drugs on memory and cognitive abilities”

ti qki d1i d2i d3i d4i

side effect 2 1 0.5 1 1drugs 2 1 1 1 1memory 1 1 1cognitive ability 1 1 1 0.5Retrievalgewicht 5 4 6 4.5

Ingo Frommholz Information Retrieval 26/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Ingo Frommholz Information Retrieval 27/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Ingo Frommholz Information Retrieval 27/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Ingo Frommholz Information Retrieval 27/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Coordination Level Match

Vereinfachung des Vektorraummodells: nur binäre Frage- undDokumenttermgewichtung

Dokument-Beschreibung: ähnlich wie Boolesches Retrieval~dj mit dji ∈ {0,1} für i = 1, . . . ,n

Frage-Beschreibung:~qk mit qi ∈ {0,1} für i = 1, . . . ,n

Retrievalfunktion: Skalarprodukt

RSV (~q,~dj) =~q ·~dj = |qT ∩dTj |

qT : Menge der Terme in qdT

j : Menge der Terme in dj

Ingo Frommholz Information Retrieval 27/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Gewichtungsmethoden

Definition (term frequency)

tf (t,d) :=occ(t,d)

occ(tmax ,d)

Definition (inverse document frequency)

idf (t) := logN

n(t)

N Anzahl der Dokumenten(t) Anzahl der Dokumente, in denen t auftrittocc(t,d) Auftrittshäufigkeit von t in d

Ingo Frommholz Information Retrieval 28/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Gewichtungsmethoden

tf und idf können zur Gewichtung von Dokument- undFragetermen benutzt werden

Beispiel:

dji = tf (ti ,dj)

qi = idf (ti)

Ingo Frommholz Information Retrieval 29/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Speicherung

Invertierte Liste mit Termgewichten

Ingo Frommholz Information Retrieval 30/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Relevance Feedback im Vektorraummodell

Angaben über die Relevanz bzw. Nicht-Relevanz werden zurVerbesserung der Retrievalqualität benutzt

Modifikation des ursprünglichen Fragevektors

Definition (Roccio-Formel)

~q′ =~q + α1|DR|

∑dj∈DR

~dj −β1|DN |

∑dj∈DN

~dj

DR Menge der relevanten DokumenteDN Menge der nicht-relevanten Dokumenteα, β heuristische, nicht-negative Konstanten

Ingo Frommholz Information Retrieval 31/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Relevance Feedback im Vektorraummodell

Angaben über die Relevanz bzw. Nicht-Relevanz werden zurVerbesserung der Retrievalqualität benutzt

Modifikation des ursprünglichen Fragevektors

Definition (Roccio-Formel)

~q′ =~q + α1|DR|

∑dj∈DR

~dj −β1|DN |

∑dj∈DN

~dj

DR Menge der relevanten DokumenteDN Menge der nicht-relevanten Dokumenteα, β heuristische, nicht-negative Konstanten

Ingo Frommholz Information Retrieval 31/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?

Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmen

Ereignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistische Modelle

Zu Grunde liegende Frage:Wie groß ist die Wahrscheinlichkeit, dass ein Dokument d füreine Anfrage q als relevant eingeschätzt wird?Schätzen der Wahrscheinlichkeit durch Vereinfachungen undUnabhängigkeitsannahmenEreignis R: “Ein Dokument wird als relevant eingeschätzt”

Bedingte Wahrscheinlichkeit, dass eine Relevanz R angegeben

wird, unter der Bedingung, dass die Anfrage q und das Dokument

d vorliegen:

P(R|q,d)

Verfahren brauchen vorab Relevanzurteile (Relevance Feedback)zum Lernen von Parametern (Abschätzen der Menge R)

Ingo Frommholz Information Retrieval 32/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probability Ranking Principle

Theoretische Rechtfertigung der probabilistischen Modelle

Ranking anhand der erwarteten Kosten EC(d ,q):

EC(d ,q) = C ·P(R|q,d) + C̄ · (1−P (R|q,d))

C Kosten für das Retrieval eines relevanten DokumentsC̄ Kosten für das Retrieval eines nicht-relevanten Dokuments

Annahme: C̄ > C

⇒ Ranking nach absteigender Wahrscheinlichkeit P(R|q,d)

Ingo Frommholz Information Retrieval 33/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probability Ranking Principle

Theoretische Rechtfertigung der probabilistischen Modelle

Ranking anhand der erwarteten Kosten EC(d ,q):

EC(d ,q) = C ·P(R|q,d) + C̄ · (1−P (R|q,d))

C Kosten für das Retrieval eines relevanten DokumentsC̄ Kosten für das Retrieval eines nicht-relevanten Dokuments

Annahme: C̄ > C

⇒ Ranking nach absteigender Wahrscheinlichkeit P(R|q,d)

Ingo Frommholz Information Retrieval 33/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als Inferenz

Information Retrieval als eine Form des logischen Schließensoder Inferenz

Annahme: Anfragen und Dokumente sind durch logische Regelnrepräsentiert und werden durch einen Inferenzprozesszueinander in Beziehung gesetzt

Ein Dokument wird als relevant angesehen, wenn die Anfrageaus den Regeln und Aussagen, die das Dokumentrepräsentieren, abgeleitet werden kann

Zusätzliches Wissen (z.B. aus einer Ontologie) kann in Form vonRegeln verwendet werden

Ein solches System ist sehr mächtig, aber auch anfällig fürInkonsistenzen in der Wissensbasis bzw. in den Anfragen undDokumenten

Ingo Frommholz Information Retrieval 34/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als probabilistische Inferenz

Berechnung der Wahrscheinlichkeit, dass ein Dokument d eine

Anfrage q impliziert (van Rijsbergen):

P(d → q)

Implikationswahrscheinlichkeit als bedingte Wahrscheinlichkeit:

P(d → q) := P(q|d) =P(d ∩q)

P(d)

=

∑t P(d ∩q∩ t)

P(d)=

∑t P(d ∩q|t)

P(d)

Annahme: P(t) als (gleichwahrscheinliche) Elementarereignisse

Ingo Frommholz Information Retrieval 35/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Retrieval als probabilistische Inferenz

Berechnung der Wahrscheinlichkeit, dass ein Dokument d eine

Anfrage q impliziert (van Rijsbergen):

P(d → q)

Implikationswahrscheinlichkeit als bedingte Wahrscheinlichkeit:

P(d → q) := P(q|d) =P(d ∩q)

P(d)

=

∑t P(d ∩q∩ t)

P(d)=

∑t P(d ∩q|t)

P(d)

Annahme: P(t) als (gleichwahrscheinliche) Elementarereignisse

Ingo Frommholz Information Retrieval 35/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Beispiel

P(d → q1) = P(q1|d)

=P(d ∩q1)

P(d)

=2/83/8

=23

P(d → q2) = P(q2|d)

=P(d ∩q2)

P(d)

=1/83/8

=13

Ingo Frommholz Information Retrieval 36/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Prädikatenlogische Modelle

Bisherige Modelle basieren auf AussagenlogikFür anspruchsvollere Retrievalapplikationen, z.B.Multimedia-Retrieval, reichen diese Modelle nicht aus

Beispiel:Aussagenlogik: Torwart und Anzeigetafelanzeigentafel, torwartPrädikatenlogik: Torwart unter Anzeigetafelanzeigentafel(a). torwart(t).below(t,a)Suchanfrage nach Torhütern unterAnzeigetafeln:?- torwart(T) & anzeigentafel(A) &

below(T,A)

Ingo Frommholz Information Retrieval 37/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Prädikatenlogische Modelle

Bisherige Modelle basieren auf AussagenlogikFür anspruchsvollere Retrievalapplikationen, z.B.Multimedia-Retrieval, reichen diese Modelle nicht aus

Beispiel:Aussagenlogik: Torwart und Anzeigetafelanzeigentafel, torwartPrädikatenlogik: Torwart unter Anzeigetafelanzeigentafel(a). torwart(t).below(t,a)Suchanfrage nach Torhütern unterAnzeigetafeln:?- torwart(T) & anzeigentafel(A) &

below(T,A)

Ingo Frommholz Information Retrieval 37/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistisches Datalog

Prolog-ähnlich, basiert auf Horn-Klauseln

Unsichere Inferenz

Regelbasierter Ansatz

Probabilistische Gewichtung von Fakten

Berechnung nach probabilistischen Regeln

Ingo Frommholz Information Retrieval 38/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Probabilistisches Datalog: Beispiel

0.7 indterm(d1,ir). 0.8 indterm(d1,db).

# db AND irq_and(D) :- indterm(D,db) & indterm(D,ir).

# db OR irq_or(D) :- indterm(D,ir).q_or(D) :- indterm(D,db).

?- q_and(D). ?- q_or(D).0.56 d1 0.94 d1(0.7 * 0.8) (0.7 + 0.8) - (0.7 * 0.8)

Ingo Frommholz Information Retrieval 39/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Datalog-Beispiel: Retrieval in Hypertexten

0.7 indterm(d1,ir). 0.8 indterm(d1,db).0.5 link(d2,d1). 0.4 link(d3,d2).about(D,T) :- indterm(D,T).about(D,T) :- link(D,D1) & about(D1,T).

?- about(D,db)0.8 d10.4 d2 (0.5 * 0.8)0.16 d3 (0.4 * 0.5 * 0.8)

Ingo Frommholz Information Retrieval 40/70

EinführungRetrievalmodelle

Web IR

Boolesches RetrievalVektorraummodellProbabilistisches RetrievalRetrieval als probabilistische InferenzPrädikatenlogische Modelle

Datalog-Beispiel: Retrieval mit Wissensstrukturen

Query nach “Exportproblem derAutomobilindustrie in Ostasien”

indterm(d1, "vw"). indterm(d1, "exportproblem"). indterm(d1, "thailand").

0.8 is_part_of("ostasien", "thailand").instance_of("automobilindustrie", "vw").instance_of("automobilindustrie", "ford").about(D,C) :- indterm(D,C).about(D,C) :- is_part_of(C,C1) & about(D,C1).about(D,C) :- instance_of(C,C1) & about(D,C1).

?- about(D, "automobilindustrie") & about(D, "ostasien") &about(D, "exportproblem").

0.8 d1

⇒ findet auch Dokumente über “Thailand”, “Ford” oder “VW”!Ingo Frommholz Information Retrieval 41/70

Web Information Retrieval

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Das World Wide Web

Technische Definition:“Alle Ressourcen und Benutzer im Internet, die das

Hypertext Transfer Protokoll (HTTP) benutzen”

Allgemeinere Definition (Tim Berners-Lee):

“The World Wide Web is the universe ofnetwork-accessible information, an embodiment of humanknowledge”

Ingo Frommholz Information Retrieval 43/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Informationssuche im Web

Navigationsmethoden (nach Traugott Koch):

Surfen Unsystematisches Verfolgen von LinksBrowsing Systematischer Seitenzugriff mittels vorstrukturierter

InformationsübersichtenSuchen Datenbankgestützter direkter Zugriff auf

Einzeldokumente über komplexe Suchbedingungen

Probleme:Exponentielles InformationswachstumFehlende Beständigkeit der Dokumente (404)Heterogene DokumenttypenQualität der DokumenteMultilingualität

Ingo Frommholz Information Retrieval 44/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Informationssuche im Web

Navigationsmethoden (nach Traugott Koch):

Surfen Unsystematisches Verfolgen von LinksBrowsing Systematischer Seitenzugriff mittels vorstrukturierter

InformationsübersichtenSuchen Datenbankgestützter direkter Zugriff auf

Einzeldokumente über komplexe SuchbedingungenProbleme:

Exponentielles InformationswachstumFehlende Beständigkeit der Dokumente (404)Heterogene DokumenttypenQualität der DokumenteMultilingualität

Ingo Frommholz Information Retrieval 44/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter Kategorien

Kataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema an

Jedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)

Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema ist

Hierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Browsen in Katalogen

Suche nach Dokumenten kann vereinfacht werden durchgezieltes Ansteuern interessanter KategorienKataloge wie Yahoo! bieten ein hierarchischesKategorienschema anJedes Web-Dokument ist einer oder mehrerer Kategorienzugeordnet (wertvolle Hinweise über die Thematik desDokuments)Thematik wird spezieller je tiefer man im Kategorienschema istHierarchisches Kategorienschema:

Ingo Frommholz Information Retrieval 45/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Yahoo!

Ingo Frommholz Information Retrieval 46/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision

+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.

Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Vor- und Nachteile von Browsing

+ Einschränkung des Suchraums, daher höhere Präzision+ Vermeidung von Mehrdeutigkeiten (Homonyme, Polyseme):

Suche nach Bank ist in einer Kategorie “Finanzwesen” eindeutig.Suche nach Baum filtert in einer Kategorie “Forstwirtschaft” alleDokumente, die die Datenstruktur “Baum” beschreiben, raus.

+ Finden weiterer relevanter Dokumente durch “rumstöbern”

+ Benutzer muss keine Suchanfrage formulieren

– Benutzer muss vorher wissen, welche Kategorie anzusteuern ist(→ Suche)

Ingo Frommholz Information Retrieval 47/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Suche auf dem Web

Fülle der Dokumente im Web kann ohne geeigneteSuchmaschinen nicht erschlossen werden

“Das Web ist ein Dschungel”

Zusammenspiel mit Browsing möglich

Standard IR-Methoden plus Ausnutzen der Linkstruktur

Ingo Frommholz Information Retrieval 48/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Basiskomponenten einer Suchmaschine

Webcrawler/Spider Sammelt Webseiten, interagiert mit Webservernbeim Dokumentzugriff, folgt Links zu neuen Quellen

Parser/Indexer Extrahiert Schlüsselwörter aus Texten und indexiertdie Dokumente

Speichersystem Effiziente Speicherung der extrahierten undaufbereiteten Informationen (z.B. in einer Datenbank mitinvertierten Listen)

Benutzerschnittstelle Eingabe von Anfragen, interagiert mitzugrundeliegendem Speichersystem

Basiskomponenten sind prinzipiell von einfacher Struktur

Riesige Datenmengen und sehr hohe Zugriffsraten

Ingo Frommholz Information Retrieval 49/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Google

Ingo Frommholz Information Retrieval 50/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur

Quelle: Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual Web Search Engine

Ingo Frommholz Information Retrieval 51/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur: Komponenten

URL Server Sammelt Liste vonabzurufenden URLs aus demDokumentindex, schickt diese an denCrawler

Crawler Sammelt/liest Webseiten

Store Server Komprimiert Webseiten,speichert diese im Repository,vergibt Dokument-ID

Ingo Frommholz Information Retrieval 52/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur: Komponenten

Indexer Liest Repository,dekomprimiert und parst DatenKonvertiert jedes Dokument ineine Menge vonWortvorkommen (Hits)Hits enthalten das Wort, diePosition im Dokument,Fontgröße und Groß- undKleinschreibung.Hits werden in Barrelseinsortiert (nach Dokument-IDs)

Ingo Frommholz Information Retrieval 52/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur: Komponenten

Indexer (Forts.) Parst alle Links imDokument und speichert wichtigeInformation (Quelle, Ziel und Text)über diese in der Anchors-Datei

URL Resolver Liest Anchors-Dateien,wandelt relative in absolute URLsund Document-IDs um, generiertLink-Datenbank

Ingo Frommholz Information Retrieval 52/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Google-Architektur: Komponenten

Sorter Generiert invertierte Listen ausden Barrels und füllt das Lexikon

Page Rank Generiert den Page Rankaus der Link-Struktur

Searcher Eigentliche Suchkomponente,benutzt Page Rank, invertierte Listenund Lexikon zur BBeantwortungvonAnfragen

Ingo Frommholz Information Retrieval 52/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web Information Retrieval

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Ingo Frommholz Information Retrieval 53/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web Information Retrieval

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Ingo Frommholz Information Retrieval 53/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web Information Retrieval

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Ingo Frommholz Information Retrieval 53/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Web Information Retrieval

Suchmaschinen setzen bekannte IR-Verfahren ein

Die bisher diskutierten Verfahren waren aber mehr oder wenigerinhaltsbasiert (Berechnung eines Retrieval Status Value einesDokuments bzgl. der Anfrage, Ranking der Dokumente)

Im Web haben wir eine weitere Informationsquelle zur Verfügung:die Linkstruktur

Diese kann zur Berechnung inhaltsbasierter Relevanzherangezogen werden, aber auch nicht-inhaltsbasierteInformation vermitteln, die für das Retrieval interessant sind

Ingo Frommholz Information Retrieval 53/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Das Web als Hypertext

Definition (Hypertext)

Ein Hypertext ist eine Ansammlung von Knoten und (gerichteten)Kanten (Links) zwischen diesen und bildet einen Graph. Auch dasWeb ist ein Hypertext (zyklischer Graph).

Ingo Frommholz Information Retrieval 54/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IR

Möglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)

Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Hypertext und Web Information Retrieval

Hypertext IR nutzt den Inhalt der Knoten und die Linkstruktur zumInformation Retrieval

In diesem Sinne ist Web IR ein Spezialfall von Hypertext IRMöglichkeiten (u.A.):

Benutzen der Linkstruktur zum Anpassen des RSV (z.B.Spreading Activation)Identifizieren der “Wichtigkeit” von Dokumenten und von Hubs undAuthorities (PageRank, HITS)

Ingo Frommholz Information Retrieval 55/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation-Algorithmus von Frei und Stieger

Numerischer Spreading Activation Ansatz aus dem Hypertext IR

Linkstruktur und RSV der einzelnen Knoten bzgl. der Anfragewerden zum Anpassen des RSV des Ausgangsknoten benutzt

Ingo Frommholz Information Retrieval 56/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Constrained Spreading Activation

1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.

Anfrage q

2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. aufGrund des Linktyps)

3 Navigationsphase: Berechne

RSV q,nd+1 := RSV q,n

d + wd ·1

|Nnd+1|·

∑n′∈Nn

d+1

RSV q,n′

0

mitwd : Propagierungsfaktor für Distanz dNn

d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n

d : RSV von Knoten n zur Anfrage q in Iteration d

Ingo Frommholz Information Retrieval 57/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Constrained Spreading Activation

1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.

Anfrage q2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. auf

Grund des Linktyps)

3 Navigationsphase: Berechne

RSV q,nd+1 := RSV q,n

d + wd ·1

|Nnd+1|·

∑n′∈Nn

d+1

RSV q,n′

0

mitwd : Propagierungsfaktor für Distanz dNn

d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n

d : RSV von Knoten n zur Anfrage q in Iteration d

Ingo Frommholz Information Retrieval 57/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beispiel: Constrained Spreading Activation

1 Initialisierung: Berechnung von RSV q,n0 für Knoten n bzgl.

Anfrage q2 Navigation, Entscheidungsphase: Selektiere Knoten (z.B. auf

Grund des Linktyps)3 Navigationsphase: Berechne

RSV q,nd+1 := RSV q,n

d + wd ·1

|Nnd+1|·

∑n′∈Nn

d+1

RSV q,n′

0

mitwd : Propagierungsfaktor für Distanz dNn

d : Menge der Nachfolgeknoten von n mit Distanz dRSV q,n

d : RSV von Knoten n zur Anfrage q in Iteration d

Ingo Frommholz Information Retrieval 57/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beispiel

Ingo Frommholz Information Retrieval 58/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Spreading Activation – Beurteilung

+ Benutzung der Linkstruktur zum Anpassen des Retrieval StatusValue

+ Kann mit verschiedenen Linktypen umgehen

+ Auch negative Links möglich (dann negativer Propagation Faktor)

– Realzeitberechnung kritisch

→ Anwendbarkeit auf das Web?

Ingo Frommholz Information Retrieval 59/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank

Berühmt geworden durch Google (Brin/Page, 1998)

Ermitteln der Autorität (Authority) eines Dokuments

Grundannahme: ein Dokument ist umso wichtiger, je mehrandere wichtige Dokumente es referenzieren

Ranking von inhaltlich relevanten Seiten nach absteigendemPage Rank

Iterative Berechnung des Page Rank, propagieren des PageRanks an nachfolgende Knoten

Ingo Frommholz Information Retrieval 60/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Random-Surfer-Modell

Random-Surfer-Modell: Page Rank wird zu gleichen Teilen an alleNachfolger propagiert

Ingo Frommholz Information Retrieval 61/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Berechnung des Page Rank

Iterative Berechnung des Page Rank PR(p) für eine Seite p:

PR(p) = (1−β) · 1N

+ β ·∑q→p

PR(q)

out(q)

mitN: Anzahl Knotenβ: Konstante zwischen 0 und 1

out(q): Anzahl ausgehender Links aus qq→ p: Es existiert ein Link von q nach p

In der Regel hat man nach 100 Iterationen Konvergenz(Henzinger, 2000)

Initial erhält jede Seite den Page Rank 1

Ingo Frommholz Information Retrieval 62/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Interpretation des Page Rank

Benutzer springt mit der Wahrscheinlichkeit (1−β) auf einebeliebige Webseite (von der jede wiederum dieWahrscheinlichkeit 1/N hat)

und mit der Wahrscheinlichkeit β auf eine Nachfolgeseite q von p

Die Wahrscheinlichkeit, dass man die Seite p anwählt, ist alsogegeben durch die Wahrscheinlichkeit eines zufälligen Sprungsauf p plus der Wahrscheinlichkeit, dass man von einerVorgängerseite q auf p springt

Ingo Frommholz Information Retrieval 63/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Page Rank – Beurteilung

+ Offline-Berechnung unabhängig von der Anfrage möglich

+ Page Rank bevorzugt populäre Seiten

+ Gute Ergebnisse für die Suche nach Home Pages

+- Page Rank bevorzugt Einstiegsseiten von Web Sites

– Zu engeren thematischen Anfragen liefern andere Verfahrenbessere Ergebnisse

– PageRank kann vielfältig manipuliert werden, z.B. durchVerkaufen von eingehenden Links (“Link-Farmen”)

Nachteil resultiert aus der Unabhängigkeit von Inhalt und AnfrageTheoretisch ist es möglich, viele (z.B. 10.000) eingehende Linkszu kaufen, um einen besseren PageRank zu bekommen

Ingo Frommholz Information Retrieval 64/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Kleinbergs HITS-Algorithmus

Ermitteln von Hubs und Authorities zu einem Thema

Hub: Verweist zu guten Authorities

Authority: Hat viele eingehende Links von guten Hubs

Ingo Frommholz Information Retrieval 65/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS: Zweistufiger Algorithmus

1 Berechnung des RSV zur Anfrage für alle Webseiten. Auswahldes Subnetzes der relevanten Dokumente (NeighbourhoodGraph)

2 Berechnung eines Hub- und Authority-Werts für jede Webseite imgewählten Subnetz

Ingo Frommholz Information Retrieval 66/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Berechnung des Hub- und Authority-Werts

Iterative Berechnung des Hub- und Authority-Werts

ap =∑q→p

hq

hq =∑q→p

ap

mit

ap: Authority-Gewicht für Knoten phq : Hub-Gewicht für Knoten p

und Normalisierungsbedingung∑p

(ap)2 = 1 und∑

p

(hp)2 = 1

Ingo Frommholz Information Retrieval 67/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Skizze des Algorithmus für Hubs und Authorities

1 Starte mit Hub- und Authority-Gewicht 1 für jeden Knoten

2 Berechne neuen Hub- und Authority-Gewichte für jeden Knoten3 Normalisiere neue Werte hinsichtlich Normaliserungsbedingung4 Gehe zu 2, wenn Konvergenzkriterium nicht erfüllt

Ingo Frommholz Information Retrieval 68/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

Start

Ingo Frommholz Information Retrieval 69/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

1. Iteration

Ingo Frommholz Information Retrieval 69/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

Normalisierung

Ingo Frommholz Information Retrieval 69/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

2. Iteration

Ingo Frommholz Information Retrieval 69/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

HITS-Beispiel

Normalisierung

Ingo Frommholz Information Retrieval 69/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beurteilung des HITS-Algorithmus

+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien

Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten

+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt

– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten

Ingo Frommholz Information Retrieval 70/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beurteilung des HITS-Algorithmus

+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien

Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten

+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt

– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten

Ingo Frommholz Information Retrieval 70/70

EinführungRetrievalmodelle

Web IR

Informationssuche im WebBrowsing und SucheBeispiel einer Web-Suchmaschine: GoogleHypertext und Web IR

Beurteilung des HITS-Algorithmus

+ Berechnung von getrennten Werten für Hubs und Authoritiesermöglicht komplexere Suchstrategien

Authority-Gewichte sind in etwa vergleichbar mit dem Page Rankund bezeichnen “wichtige” Dokumente→ Suche nach wichtigenDokumentenHubs stellen durch ihre Verlinkung zu Authorities einen gutenÜberblick dar→ Suche nach guten Übersichtsseiten

+ Hub- und Authority-Werte sind auf die Anfrage abgestimmt

– Berechnung zum Anfragezeitpunkt, daher längere Antwortzeiten

Ingo Frommholz Information Retrieval 70/70

Recommended