Upload
wenzeslaus-gerhardt
View
104
Download
0
Embed Size (px)
Query Reformulation
Seminar Multimedia-Datenbanken
Sommersemester 2002
Marcus Denecke
Marcus Denecke Query Reformulation 2
1. Einführung
2. Content-Based Image Retrieval
3. Relevanz-Feedback
3.1 Query-Reweighting
3.2 Query-Expansion
4. Implementation
5. Zusammenfassung
Gliederung
Marcus Denecke Query Reformulation 3
• global zunehmende Menge an digitalen Daten
• darunter: steigender Anteil an Multimediadaten
• insbesondere Bilder: aus Medizin, Geographie etc.
1. Einführung
• Wunsch: effiziente Speicherung MMDatenbanken
• Wunsch: leichtes Wiederauffinden der (Binär-)Daten
• Problem: Suche in digitalen Daten
• Ansatz: Verschlagwortung
Marcus Denecke Query Reformulation 4
• jedes Bild wird manuell mit Schlagwörtern versehen
• Suche erfolgt auf diesen Begriffen
• aber: Verlagerung des Problems, keine Lösung:
• Skalierbarkeit Aufwand
• Subjektivität Inkonsistenz
• Komplexität Transformation
• Ansatz: Nutzung des Bildinhaltes zur Suche
Schlagwörter
1. Einführung
Marcus Denecke Query Reformulation 5
2. Content Based Image Retrieval
• frühe 90er• Ansatz: Multimediadaten enthalten bestimmte
Features / Merkmale• Bsp. für Bilder: Farben, Texturen, Formen• Nutzung als Bildindex• Vorteile:
• Automatisierte Extraktion• Daten selbst immer konsistent
Marcus Denecke Query Reformulation 6
2. Content Based Image Retrieval
Marcus Denecke Query Reformulation 7
• Nutzer können ihren Informationsbedarf nicht mit Hilfe der Merkmale ausdrücken
• Lücke zwischen der Wahrnehmung des Nutzers und der Repräsentation im System
• Gewichte für den Nutzer umständlich
2. Content Based Image Retrieval
Nachteile
• Idee: Merkmale verbergen und Gewichte dynamisch anpassen
• Dynamik Iterationen Relevanz-Feedback
Marcus Denecke Query Reformulation 8
• Multimediaobjekt O = O (D, F, R)• D = Daten, F = Merkmale, R = Repräsentationen• verschiedene Medientypen verschiedene
Merkmale (z.B. Farbe, Textur, Form)• Merkmale in unterschiedlichen Repräsentationen
z.B. Histogramme und Color Moments für die Farbe• Repräsentationen wiederum Vektoren mit Werten für
die entsprechende Ausprägung
2. Content Based Image Retrieval
Multimedia-Objekt-Modell
Marcus Denecke Query Reformulation 9
Multimedia-Objekt-Modell
2. Content Based Image Retrieval
Marcus Denecke Query Reformulation 10
Query-Modell
2. Content Based Image Retrieval
• Erweiterung des Objekt-Modells• jeder Ast des Suchbaums ist entsprechend der
Relevanz gewichtet• bei mehr als einem vorgegebenen Beispiel:
• Objekt-basiertes Modell • Merkmals-basiertes Modell
Marcus Denecke Query Reformulation 11
Query-Modell
2. Content Based Image Retrieval
Marcus Denecke Query Reformulation 12
Retrieval-Modell
2. Content Based Image Retrieval
• bestimmt die Ähnlichkeit zwischen einem Objekt O und einer Query Q durch Berechnung der Distanz mit einer Ähnlichkeitsfunktion D(O, Q)
• Ergebnis: gerankte Liste von Objekten
• Objekt-Modell, Query-Modell, Retrieval-Modell und eine Sammlung von Abstandsmassen zusammen bilden das Content-Based Multimedia Retrieval Modell
Marcus Denecke Query Reformulation 13
Retrieval-Modell
2. Content Based Image Retrieval
Marcus Denecke Query Reformulation 14
3. Relevanz-Feedback
• Informationsbedarf modelliert durch• dynamisch angepasste Gewichte
Query Reweighting• Erweiterung der Query um neue Objekte
Query Expansion
• Query Reformulation beschreibt den iterativen Prozeß der Anpassung einer Query basierend auf dem Feedback des Nutzers so, dass sie sein Informationsbedürfnis besser abdeckt als zuvor
Marcus Denecke Query Reformulation 15
Techniken
Query Refinement
Query Representation Modification
Query Reweighting
Query Expansion
Query Point Movement
3. Relevanz-Feedback
• Beispiel: Chariot
Marcus Denecke Query Reformulation 16
3.1 Query Reweighting
Hand-Out
• Iterativer Prozess• Ziel: Modellierung des Informationsbedarfes durch
die Anpassung der Gewichte im Query-Model• Versuch die high-level-Konzepte des Nutzers
(„Katze“) auf low-level-Features des Systems (Farbe, Form, Textur) abzubilden
Marcus Denecke Query Reformulation 17
Normalisierung
3.1 Query-Reweighting
• Problem: Ähnlichkeitsmaße müssen nicht immer im selben Bereich liegen Verzerrung
• Normalisierung der• Komponenten eines Repräsentationsvektors rij intra
• Ähnlichkeitswerte jeder Repräsentation S(rij ) inter
• Gauss-Normalisierung • Wertebereich [0, 1]
Marcus Denecke Query Reformulation 18
Weight-Updating
3.1 Query-Reweighting
• eigentliche Erfassung der Subjektivität• Nutzer gibt auf einer Skala von sehr relevant (3) bis
gar nicht relevant (- 3) die Relevanz zurück
• Anpassung der• Gewichte in den Repräsentationen (Wij) inter
• Gewichte der Vektorkomponenten (Wijk) intra
Erhöhung und Minderung der Gewichtung der Merkmale und Repräsentationen
Marcus Denecke Query Reformulation 19
3.2 Query Expansion
• Nutzer findet u.U. kein geeignetes Beispiel um sein Informationsbedürnis auszudrücken
• System das nur mit Beispielen arbeitet limitiert den Nutzer
• Lösung: Query Expansion• Idee: Aufnahme von einer limitierten Auswahl an
relevanten Objekten in die anfängliche Query
Marcus Denecke Query Reformulation 20
Similar Expansion
3.2 Query Expansion
• Aufnahme von relevanten Objekten, wenn diese sehr ähnlich zu den vom Nutzer als relevant ausgewählten sind
• Rechtfertigung: da die Objekte den gewünschten ähnlich sind, repräsentieren sie wiederum andere ähnliche Objekte
Marcus Denecke Query Reformulation 21
Distant Expansion
3.2 Query Expansion
• Aufnahme von relevanten Objekten, wenn diese weniger ähnlich zu den vom Nutzer als relevant ausgewählten sind
• Rechtfertigung: diese Objekte könnten einige interessante Merkmale aufweisen, die bis dahin nicht im Suchbaum berücksichtigt wurden Erweiterung der Anfrage um neue Merkmale
• sollten die Objekte nicht nützlich sein, so werden sie durch das Relevanz-Feedback in der nächsten Iteration wieder gelöscht
Marcus Denecke Query Reformulation 22
• Problem: Berechnung der Ähnlichkeitswerte extrem aufwendig
• Lösungsansatz: „Pufferung“ eines Teils der Informationen jeder Iteration des Prozesses
• Ansatz: k-NN-Algorithmus
4. Implementation
Marcus Denecke Query Reformulation 23
5. Zusammenfassung
• Relevanz-Feedback sinnvolle Ergänzung des CBIR• durch Interaktion wird eine effiziente Suche
ermöglicht, ohne dass beide Seiten die Grundlagen der jeweils anderen kennen
• Problem: die Abbildung von high-level-Konzepten auf low-level-Features ist sehr beschränkt
Integration von high-level-Konzepten erforderlich
Marcus Denecke Query Reformulation 24
Quellen
• Relevance Feedback: A Power Tool for Interactive Content-Based Image Retrieval; Rui, Huang, Ortega, Mehrotra, September 1998
• Query Reformulation for Content Based Multimedia Retrieval in MARS; Pokaew, Mehrotra, Ortega, November 1998
• Efficient Query Refinement in Multimedia Databases; Chakrabarti, Porkaew, Mehrotra, 2000