Things, not StringsADV Tagung - Suchstrategien für heute und morgen
12. November, 2014
Dr. Bernhard Haslhofer Data Scientist
AIT - Austrian Institute of Technology [email protected]
Things, not Strings
http://googleblog.blogspot.co.at/2012/05/introducing-knowledge-graph-things-not.html
Knowledge Graph?
Vorteile
4
Die richtigen “Dinge” finden
5
Zusammenfassungen
6
Beziehungen
7
“Wird auch oft gesucht”
8
Funktionsweise
9
Information Retrieval Basics
10
(Web-)Inhalte
Analyse Repräsentation (Index)
Retrieval Funktion Resultate
Suchbegriff
Analyse Repräsentation“David Alaba”
Invertierter Index
11
alaba
austria
david
rapid
wien
stadion
d1 d2 d3
d1 d4 d5
d1 d6 d7
d4
d1 d2
d4 d5 d7
Dictionary Postings
Semantischer Index
12
alaba
austria
david
rapid
wien
stadion
d1 d2 d3
d1 d4 d5
d1 d6 d7
d4
d1 d2
d4 d5 d7
Dictionary Postings Knowledge Graph
Semantischer Index
13
alaba
austria
david
rapid
wien
stadion
d1 d2 d3
d1 d4 d5
d1 d6 d7
d4
d1 d2
d4 d5 d7
Strings Things
Knowledge Graph Konstruktion
14
Eigenschaften• Dinge sind eindeutig identifizierbar (URIs)
• Dinge haben
• einen Typ (“Person”, “Ort”, “Ereignis”, …)
• Eigenschaften (“Name”, “Lat/Lng”, “Datum”, …)
• Beziehungen zu anderen relevanten (!!!) Dingen
15
Aggregation (offener) Daten
16
Aggregation (offener) Daten
Aggregation (offener) Daten
18
Extraktion von Dingen
19
<div itemscope itemtype="http://schema.org/SportsTeam"> <span itemprop=“name">FC Bayern München</span> <div itemprop="member" item scope itemtype="http://schema.org/OrganizationRole"> <div itemprop="member" itemscope itemtype="http://schema.org/Person"> <span itemprop=“name">David Alaba</span> </div> <span itemprop="startDate">2010</span> <span itemprop=“namedPosition">Linker Verteidiger</span> </div>
Interaktive Eingabe
20
Knowledge Graph Verlinkung
21
d2
d6
Schritte / Probleme• Named Entity Detection: “…EM-Qualifikation gegen
Russland: So geht Marcel Koller mit dem David Alaba-Ausfall um…”
• Named Entity Disambiguation: “…Aufregendes Derby lässt die Austria aufatmen…” (Austria = Fußballverein/Land)?
• Named Entity Linkage/Resolution:
• David Alaba = http://dbpedia.org/resource/David_Alaba
• Austria = http://www.freebase.com/m/03mp37
22
Tools• AlchemyAPI (http://www.alchemyapi.com/):
• identifiziert eine Vielzahl von Entitätstypen (Personen, Orte, Ereignisse, etc.) in Dokumenten
• unterstützt DBPedia, Freebase
• DBPedia Spotlight (https://github.com/dbpedia-spotlight):
• annotiert DBPedia Entitäten in Dokumenten
• ….
23
Fazit
24
• Heutige und zukünftige Suchstrategien basieren auf Volltextsuche + Knowledge Graph
• Google Knowledge Graph
• Microsoft Bing Satori Knowledge Base
• …
25
• Identifikation, Extraktion und Verlinkung von Dingen “Things” gewinnt zunehmend an Bedeutung
• Verfügbarkeit offener, strukturierter Daten ist essentiell zum Aufbau von Knowledge Graphs
26
Ausblick
27
• Knowledge Base/Graph
• ist Voraussetzung für Question-Answering Systeme (z.b., IBM Watson)
• bildet Basis für natürlichsprachige Suche
• ermöglicht Antizipation zukünftiger Suchanfragen
28
“OK Bernhard…”
29
http://bernhardhaslhofer.info
http://slideshare.net/bhaslhofer
@bhaslhofer