Things, not Strings

Preview:

Citation preview

Things, not StringsADV Tagung - Suchstrategien für heute und morgen

12. November, 2014

Dr. Bernhard Haslhofer Data Scientist

AIT - Austrian Institute of Technology bernhard.haslhofer@ait.ac.at

Things, not Strings

http://googleblog.blogspot.co.at/2012/05/introducing-knowledge-graph-things-not.html

Knowledge Graph?

Vorteile

4

Die richtigen “Dinge” finden

5

Zusammenfassungen

6

Beziehungen

7

“Wird auch oft gesucht”

8

Funktionsweise

9

Information Retrieval Basics

10

(Web-)Inhalte

Analyse Repräsentation (Index)

Retrieval Funktion Resultate

Suchbegriff

Analyse Repräsentation“David Alaba”

Invertierter Index

11

alaba

austria

david

rapid

wien

stadion

d1 d2 d3

d1 d4 d5

d1 d6 d7

d4

d1 d2

d4 d5 d7

Dictionary Postings

Semantischer Index

12

alaba

austria

david

rapid

wien

stadion

d1 d2 d3

d1 d4 d5

d1 d6 d7

d4

d1 d2

d4 d5 d7

Dictionary Postings Knowledge Graph

Semantischer Index

13

alaba

austria

david

rapid

wien

stadion

d1 d2 d3

d1 d4 d5

d1 d6 d7

d4

d1 d2

d4 d5 d7

Strings Things

Knowledge Graph Konstruktion

14

Eigenschaften• Dinge sind eindeutig identifizierbar (URIs)

• Dinge haben

• einen Typ (“Person”, “Ort”, “Ereignis”, …)

• Eigenschaften (“Name”, “Lat/Lng”, “Datum”, …)

• Beziehungen zu anderen relevanten (!!!) Dingen

15

Aggregation (offener) Daten

16

Aggregation (offener) Daten

Aggregation (offener) Daten

18

Extraktion von Dingen

19

<div itemscope itemtype="http://schema.org/SportsTeam"> <span itemprop=“name">FC Bayern München</span> <div itemprop="member" item scope itemtype="http://schema.org/OrganizationRole"> <div itemprop="member" itemscope itemtype="http://schema.org/Person"> <span itemprop=“name">David Alaba</span> </div> <span itemprop="startDate">2010</span> <span itemprop=“namedPosition">Linker Verteidiger</span> </div>

Interaktive Eingabe

20

Knowledge Graph Verlinkung

21

d2

d6

Schritte / Probleme• Named Entity Detection: “…EM-Qualifikation gegen

Russland: So geht Marcel Koller mit dem David Alaba-Ausfall um…”

• Named Entity Disambiguation: “…Aufregendes Derby lässt die Austria aufatmen…” (Austria = Fußballverein/Land)?

• Named Entity Linkage/Resolution:

• David Alaba = http://dbpedia.org/resource/David_Alaba

• Austria = http://www.freebase.com/m/03mp37

22

Tools• AlchemyAPI (http://www.alchemyapi.com/):

• identifiziert eine Vielzahl von Entitätstypen (Personen, Orte, Ereignisse, etc.) in Dokumenten

• unterstützt DBPedia, Freebase

• DBPedia Spotlight (https://github.com/dbpedia-spotlight):

• annotiert DBPedia Entitäten in Dokumenten

• ….

23

Fazit

24

• Heutige und zukünftige Suchstrategien basieren auf Volltextsuche + Knowledge Graph

• Google Knowledge Graph

• Microsoft Bing Satori Knowledge Base

• …

25

• Identifikation, Extraktion und Verlinkung von Dingen “Things” gewinnt zunehmend an Bedeutung

• Verfügbarkeit offener, strukturierter Daten ist essentiell zum Aufbau von Knowledge Graphs

26

Ausblick

27

• Knowledge Base/Graph

• ist Voraussetzung für Question-Answering Systeme (z.b., IBM Watson)

• bildet Basis für natürlichsprachige Suche

• ermöglicht Antizipation zukünftiger Suchanfragen

28

“OK Bernhard…”

29

http://bernhardhaslhofer.info

http://slideshare.net/bhaslhofer

bernhard.haslhofer@ait.ac.at

@bhaslhofer

Recommended