Upload
harald-sack
View
2.379
Download
4
Embed Size (px)
DESCRIPTION
Citation preview
Die nichtkommerzielle Vervielfältigung, Verbreitung und Bearbeitung dieser Folien ist zulässig (Lizenzbestimmungen CC-BY-NC).
VorlesungDr. Harald Sack
Hasso-Plattner-Institut für SoftwaresystemtechnikUniversität Potsdam
Wintersemester 2010/11
Semantic Web Technologien
Blog zur Vorlesung: http://web-flakes.blogspot.com/
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
2
Ontolo
gical
Engine
ering
Michelangelo vs. The Flying Spaghetti Monster...
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
3
4. Ontology Engineering
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
4 1. Einführung
2. Semantic Web BasisarchitekturDie Sprachen des Semantic Web - Teil 1
3. Wissensrepräsentation und LogikDie Sprachen des Semantic Web - Teil 2
4. Ontology Engineering
5. Linked Data und Semantic Web Anwendungen
Semantic Web Technologien Vorlesungsinhalt
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
5
Joseph Wright of Derby:The Alchymist, In Search of the Philosopher’s Stone, 1771
Linked
Data
&
Semant
ic Web
Applic
ations
Nächste Vorlesung:
5.Linked Data und Semantic Web Anwendungen
5.1.Linked Data Engineering
5.1.1.APIs vs. Linked Data
5.1.2.Linked Data Principles
5.1.3.Linked Data @Work
5.1.4.Linked Data Research Challenges
5.2.Semantische Suche
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
6
Semantic Web Technologien Vorlesungsinhalt
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
7
Information und wo man sie findet•Wie beschaffen wir uns eigentlich Informationen über Dinge?
•...über abstrakte Konzepte?
•...etwa über ein Buch?
ⓒ Harald Sack
•...über einen Film?
ⓒ Friedrich Murnau Stiftung
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
8
Information und wo man sie findet•Wie beschaffen wir uns eigentlich Informationen über Dinge?
•...Wir schlagen einfach unter den entsprechenden Namen nach
„Brave New World“ „Rache / Revenge“
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
ⓒ Harald Sack
„Der blaue Engel“
ⓒ Friedrich Murnau Stiftung
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
9
Information und wo man sie findet•...früher ging man z.B. in die Bibliothek
Brave New World
siehe auch Schöne neue Welt Welt wohin? : ein Roman der Zukunft Wackere neue Welt : ein Roman der Zukunft
kontrolliertes Vokabular
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
ⓒ Harald Sack
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
10Information und wo man sie findet•...früher ging man z.B. in die Bibliothek
Brave New World. - Aldous H U X L E Y. - The Albatros Continental Library, 47 (Hamburg usw., Albatros Verlag, 1933) 257 S. 8“
II 1, 2506, 34548
Metadaten
Identifier
ⓒ Harald Sack
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
11Information und wo man sie findet•...heute geht man ins WWW
ⓒ Harald Sack
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
http://www.worldcat.org
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
12Information und wo man sie findet•...heute geht man ins WWW
ⓒ Harald Sack
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
13Information und wo man sie findet•Ist Information heute nicht im WWW vorhanden,
kann sie nur schwer gefunden werden (wenn überhaupt...)
DatenbankWeb-Server
JDBCHTTPHTML
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
14 Das WWW heute•Das WWW ist für die Nutzung durch den Menschen bestimmt
•Das WWW basiert auf der Markupsprache HTML
•HTML beschreibt
•wie Informationen dargestellt werden sollen (XHMLT + CSS),
•wie Informationen miteinander verknüpft werden können,
•aber nicht, was diese Informationen bedeuten….
bedarf der Interpretation durch den Menschen...
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
15 Das WWW heute•Daten selbst sind verschlossen in abgeschirmten „Datensilos“
•Andere Applikationen können diese Daten weder zugreifen noch weiterverarbeiten
Datenbank
Datenbank
Datenbank
Datenbank
Datenbank
Datenbank
Datenbank
Datenbank
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
16 Das WWW heute•Aber es gibt eine ganze Reihe unterschiedlicher (proprietärer) Web-APIs,
Austauschdatenformate und darauf aufbauende Mashups
Datenbank 1
WebAPI 1
WebAPI 2
WebAPI 3
WebAPI 4
Datenbank 2 Datenbank 3 Datenbank 4
Mashup
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
17 Das WWW heute•Das Problem liegt auf der Hand....
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
http://www.w3.org/2009/Talks/0204-ted-tbl/#(22)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
18 Also auch die Lösung...•...Öffnen der proprietären Datensilos
•...Veröffentlichung aller Daten von allgemeinem Interesse
•...und zwar so, dass
•andere Anwendungen diese Daten zugreifen, benutzen und weiterverarbeiten können und
•alle Anwendungen sich zusätzliche (Meta)daten zu den verfügbaren Daten beschaffen können
Datenbank 1 Datenbank 2 Datenbank 3
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
19
Also auch die Lösung...•...Anwendungen schlagen unter den entsprechenden Namen die zugehörigen
(Meta)daten im Web nach
http://dbpedia.org/resource/Brave_New_World
http://dbpedia.org/resource/Der_Blaue_Engel
http://dbpedia.org/resource/Revenge
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
ⓒ Harald Sack
ⓒ Friedrich Murnau Stiftung
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
20
Also auch die Lösung...• Nutze semantische Technologien,
•um strukturierte Daten im Web zu publizieren
•um Verbindungen von einer Datenquelle zu Daten aus anderen Datenquellen zu ziehen
Datenbank 1 Datenbank 2 Datenbank 3 Datenbank 4
RDF Data RDF Data RDF Data RDF Data
RDF Links
RDF Links
RDF Links
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.1 APIs vs. LOD
5.Linked Data und Semantic Web Anwendungen
5.1.Linked Data Engineering
5.1.1.APIs vs. Linked Data
5.1.2.Linked Data Principles
5.1.3.Linked Data @Work
5.1.4.Linked Data Research Challenges
5.2.Semantische Suche
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
21
Semantic Web Technologien Vorlesungsinhalt
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
22 Linked Data■ Begriff wurde von Tim Berners-Lee geprägt
(Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html)
□ Menge von Best practices zur Veröffentlichung und Verknüpfung von strukturierten Daten im Web
□ Grundannahme: Der Wert (Nützlichkeit) von Daten im Web steigt je stärker diese mit Daten aus anderen Datenquellen verknüpft sind.
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
23 Linked Data■ Begriff wurde von Tim Berners-Lee geprägt
(Tim Berners-Lee, Linked Data, 2006, http://www.w3.org/DesignIssues/LinkedData.html)
The Web of data is abouta dataand namingmodel on the Web
(RDF)
(URI)
M.Hausenblas, Quick Linked Data Introduction, http://www.slideshare.net/mediasemanticweb/quick-linked-data-introduction
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
24 Linked Data■ technische Grundprinzipien:
□ URIs identifizieren Ressourcen eindeutig (nicht nur Dokumente)
□ HTTP URIs (URLs) als global eindeutige Namen erlauben das „Nachschlagen“ der zugehörigen Information im Web
□ RDF als universelles Datenmodell zur Veröffentlichung strukturierter Daten im Web
□ Alle URIs in RDF-Graphen aus dem Web dereferenzierbar machen
□ RDF-Verweise zwischen Daten in verschiedenen Datenquellen setzen, um (inhaltlich) zusammenhängende Informationen zu finden
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
25 Linked Data□ Die Anwendung der genannten Prinzipien führt zur Entstehung eines
,Web of Data‘
http://linkeddata.org/
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
26 DBPedia□ Zentraler Hub innerhalb des Linke Data Graphen ist die DBpedia
http://dbpedia.org/
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
27 DBPedia□ Zentraler Bestandteil:
Wikipedia Info-Boxen
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
28 DBPedia□ Zentraler Bestandteil:
Wikipedia Info-Boxen
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
29 DBPedia□ Zentraler Bestandteil:
Wikipedia Info-Boxen
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
30 Semantic Mashups□ Semantic Mashups sind Anwendungen, die vernetzte RDF-Daten aus
unterschiedlichen Datenquellen nutzen
□ im Gegensatz zu diversen Schnittstellen und Ergebnisformaten regulärer Web-APIs bieten vernetzte Daten (Linked Data) folgende Vorteile:
□ flexibles, standardisiertes Datenformat (RDF)
□ standardisierter Zugriffsmechanismus (http)□ Möglichkeit, Verweise (RDF-Links) zwischen unterschiedlichen Datenquellen zu
setzen
» ermöglicht Navigation
» wird von Suchmaschinen genutzt (Crawler)
» Ermöglichung expressiver Suchfunktionalität über gesammelte Daten hinweg
S. Auer, J. Lehmann, Ch. Bizer: Semantitsche Mashups auf Basis vernetzter Daten, in T. Pellegrini, A. Blumauer (Hrsg.): Social Semantic Web, Springer, 2009.
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
31 Linked Data für Mensch und Maschine■ URI soll sowohl für Menschen als auch für Computer interpretierbare Informationen
liefern, d.h.
URI
Accept: application/rdf+xml
http://dbpedia.org/resource/Ernest_Hemingway
Accept: text/html
(Thing)
(RDF data) (HTML page)
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
32 Linked Data für Mensch und Maschine■ Server liefert unterschiedliche HTTP Responses in Abhängigkeit vom HTTP-Accept-
Header (Content Negotiation)
http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
33 Linked Data für Mensch und Maschine■ Üblicherweise verwende entsprechende Namen für unterschiedliche
Repräsentationsformen
http://dbpedia.org/resource/Ernest_Hemingway
Accept: application/rdf+xml
http://dbpedia.org/resource/Ernest_Hemingway
Accept: text/html
http://dbpedia.org/data/Ernest_Hemingway.rdf
http://dbpedia.org/page/Ernest_Hemingway
(Thing)
(RDF data) (HTML page)
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
34 Dereferenzierung von URIs■ Bsp.: FOAF (Friend-of-a-Friend)
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:foaf="http://xmlns.com/foaf/0.1/" xmlns:dbpedia=“http://dbpedia.org/resource/“></rdf:RDF>...<foaf:Person rdf:ID=“http://hpi.uni-potsdam.de/meinel/sack/foaf.rdf#harald“>
<foaf:name>Harald Sack</foaf:name><foaf:homepage rdf:resource="http://www.hpi.uni-potsdam.de/meinel/sack.html"/><foaf:based_near rdf:resource="dbpedia:Potsdam“/>
...</foaf:Person>...
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
35 Dereferenzierung von URIs■ Bsp.: FOAF (Friend-of-a-Friend)
hpihs:harald foaf:Personrdf:type
Harald Sackfoaf:name
foaf:based_neardbpedia:Potsdam
GET /resource/Potsdam HTTP/1.0Accept: application/rdf+xml
(dbpedia:Potsdam = http://dbpedia.org/resource/Potsdam)
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
36 Dereferenzierung von URIs
hpihs:harald foaf:Personrdf:type
Harald Sackfoaf:name
foaf:based_neardbpedia:Potsdam
dbpedia:Potsdam dbpedia:population
skos:subject
dbpedia:Cities_in_Germany
150.833
GET /resource/Potsdam HTTP/1.0Accept: application/rdf+xml
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
37 Dereferenzierung von URIs
hpihs:harald foaf:Personrdf:type
Harald Sackfoaf:name
foaf:based_neardbpedia:Potsdam
skos:subject
150.833
dbpedia:Berlin
dbpedia:Jena
skos:subject
skos:s
ubject
dbpedia:population
dbpedia:Cities_in_Germany
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
38 Linked Data Quellen im Web□ native Publikation
□ D2R-Server, OpenLink Virtuoso, Pubby, etc.
□ Implementierung von Wrapper um existierende Anwendungen/APIs
□ SIOC-Exporter für Wordpress, Drupal, phpBB,...□ RDF Book Mashup (Amazon API, Google Base-API,...)
□ Linking Open Data Project
□ Semantic Web Education and Outreach Arbeitsgruppe des W3C□ Verzeichnis aller bekannter Quellen vernetzter Daten mit offener Lizenz
» DBPedia, Flickr, Open-Cyc, FOAF, SIOC, GeoNames, ...
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
39 Browser für Linked Data■ Unterschied zu nativen RDF-Browsern
□ zu visualisierende RDF-Daten liegen nicht notwendigerweise im lokalen Repository, sondern verteilt im WWW
□ erfordert dynamisches Nachladen von RDF Ressourcen
■ Tabulator (Tim Berners-Lee, MIT-Arbeitsgruppe)(T. Berners-Lee et al.: Tabulator: Exploring and analyzing linked data on the semantic web, in Proc. 3rd Int. Semantic Web User Interaction Workshop, 2006, http://swui.semanticweb.org/swui06/papers/Berners-Lee/Berners-Lee.pdf)
■ OpenLink RDF Browser
□ erlaubt Darstellung als Graph, Zeitreihe, Landkarte, etc.http://demo.openlinksw.com/DAV/JS/rdfbrowser/index.html
■ Zitgist Browserhttp://browser.zitgist.com/
■ DISCO Browserhttp://sites.wiwiss.fu-berlin.de/suhl/bizer/ng4j/disco/
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
40 Suchmaschinen für Linked Data■ Crawler-basiert, folgen Verknüpfungen von Datensätzen, um einen Index zu erstellen, an
den Suchabfragen gerichtet werden können
■ Swoogle
□ Stichwort-basierte Volltextsuche (Apache-Lucene), nutzt semantische Annotation nur begrenzthttp://swoogle.umbc.edu/
■ Semantic Web Search Engine (SWSE)
□ nutzt zusätzlich rdf:type Properties zur Filterung der Suchehttp://swse.deri.org/
■ Sindicehttp://www.sindice.com/
■ Falcons
□ mit Datenbrowser zur Analyse der Suchergebnissehttp://iws.seu.edu.cn/services/falcons/
■ Sig.ma - Semantic Information Mashup (auf der Basis von Sindice)http://sig.ma/
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
41
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.2 Linked Data Principles
http://dbpedia.neofonie.com
5.Linked Data und Semantic Web Anwendungen
5.1.Linked Data Engineering
5.1.1.APIs vs. Linked Data
5.1.2.Linked Data Principles
5.1.3.Linked Data @Work
5.1.4.Linked Data Research Challenges
5.2.Semantische Suche
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
42
Semantic Web Technologien Vorlesungsinhalt
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
43 Linking Open Data■ Publiziere öffentlich verfügbare strukturierte Daten als Linked Data und
■ Verlinke die unterschiedlichen Datenquellen miteinander
LOD-WikiPage: http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData/
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
44
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
45 Linking Open Data■ Some statistics
(http://www4.wiwiss.fu-berlin.de/lodcloud/state/, Oct 2010)
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
46
Linking of ,Linked Data‘•Links von DBPedia.org zu anderen Ressourcen
•Links von meinem FOAF-Profile zur DBPedia
<http://dbpedia.org/resource/Berlin> owl:sameAs <http://sws.geonames.org/2950159> .
<http://dbpedia.org/resource/Ernest_Hemingway> owl:sameAs <http://sw.opencyc.org/concept/Mx4rv07_gJwpEbGdrcN5Y29ycA> .
<http://www.hpi.uni-potsdam.de/fileadmin/hpi/FG_ITS/ lecturenotes/Semantic_Web/foaf.rdf> foaf:topic_interest <http://dbpedia.org/Resource/Semantic_Web> .
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
47 Die Ontologien hinter Linking Open Data□ Controlled Vocabulary
□ Dictionaries
□ Schemata
□ Ontologies
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
48 Linked Data Driven Web Applications□ Notwendige Komponenten:
□ Local RDF Store
□ caching of results
□ permanent storage
□ Logic (Controller) und User Interface (-> Business Logic)
□ (nicht LOD spezifisch)
□ Data Integration component
□ Daten direkt aus LOD-Cloud oder
□ via Semantic Indexer (sindice, etc.) holen
□ Data Republishing component
□ Applikations-eigene Daten in Web of Data zurückschreiben
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
49 Linked Data Driven Web Applications
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
M.Hausenblas: Linked Data Applications, DERI Technical Report, 2009
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
50
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Linked Data Driven Web Applications□ Zugriff auf Linked Data erfolgt über SPARQL Endpoints
□ ...aber wo finde ich SPARQL Endpoints?
□ W3C: Currently Alive SPARQL Endpointshttp://esw.w3.org/SparqlEndpoints
□ SPARQL endpoints are a RESTful Web Service
□ HTTP GET Request mit SPARQL query
□ Result als
□ XML, JSON, plaintext (SPARQL Select/Ask)
□ RDF/XML, NTriples, Turtle, N3 (SPARQL Describe/Construct)
□ Datenformat kann über HTTP Accept Header gesteuert werdenZ.B. Accept: application/sparql-results+json
□ (oder über Parameter in der SPARQL query)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
51
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Linked Data Driven Web Applications□ Einfacher geht es mit einer entsprechenden Library:
□ SPARQL Javascript Libraryhttp://www.thefigtrees.net/lee/blog/2006/04/sparql_calendar_demo_a_sparql.html
□ ARC for SPARQL (PHP)http://arc.semsol.org/
□ RAP - RDF API für PHPhttp://www4.wiwiss.fu-berlin.de/bizer/rdfapi/index.html
□ Jena/ARQ (Java)http://jena.sourceforge.net/
□ Sesame (Java)http://www.openrdf.org/
□ SPARQL Wrapper (Python)http://sparql-wrapper.sourceforge.net/
□ ...
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
52
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Linked Data Driven Web Applications□ Simples Beispiel mit Jena ARQ:
import com.hp.hpl.jena.query.*;
String service = "..."; // address of the SPARQL endpoint String query = "SELECT ..."; // your SPARQL query QueryExecution e = QueryExecutionFactory.sparqlService(service, query)
ResultSet results = e.execSelect(); while ( results.hasNext() ) {! ! QuerySolution s = results.nextSolution(); ! ! // ...}
e.close();
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
53
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Linked Data Driven Web Applications□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
1.Nacheinander Anfragen an verschiedene SPARQL Endpoints richten
2.Abfrage an eine LOD Repository Sammlung
3.Aufbau einer lokalen Kopie aus mehreren LOD-Quellen
4.Nutzung eines föderierten Abfragesystems
a)Traditioneller Ansatz
b)Link Traversal Based Query Execution
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
54
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten
□ Idee:Richte SPARQL Anfragen an weitere SPARQL-Endpoints basierend auf den Ergebnissen der vorangegangenen Abfragen
□ d.h. Platzhalter in Query-Templates werden durch Ergebnisse der vorangegangenen SPARQL-Abfragen ersetzt
LOD1
LOD2
LOD3
Query1
Erg1
Query2(Erg1)
Erg2
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
55
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten
String s1 = "http://sparql.yovisto.com/"; String s2 = "http://dbpedia.org/sparql";
String qTmpl = "SELECT ?c WHERE{ <%s> <http://dbpedia.org/ontology/abstract> ?a }";String q1 = "SELECT ?s WHERE { ..."; QueryExecution e1 = QueryExecutionFactory.sparqlService(s1,q1); ResultSet results1 = e1.execSelect(); while ( results1.hasNext() ) {! QuerySolution s1 = results.nextSolution(); ! String q2 = String.format( qTmpl, s1.getResource("s").getURI() );! QueryExecution e2= QueryExecutionFactory.sparqlService(s2,q2); ! ResultSet results2 = e2.execSelect(); ! while ( results2.hasNext() ) {! ! // ... ! }
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
56
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
1. Nacheinander Anfragen an verschiedene SPARQL Endpoints richten
□ Vorteile:
□ Abgefragte Daten sind stets aktuell
□ Nachteile:
□ Jeder der verwendeten Datensätze benötigt einen SPARQL Endpoint
□ Programmlogik erforderlich
□ ineffizient
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
57
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
2. Abfrage an eine LOD Repository Sammlung
□ Idee:Nutze einen vorhandenen SPARQL Endpoint, der den Zugang zu einer Menge von verschiedenen LOD Datensätzen ermöglicht
□ = Data Centralization
□ SPARQL Endpoints, über die eine Vielzahl der LOD-Datensätze zugegriffen werden können:
□ http://uberblic.org
□ http://lod.openlinksw.com/sparql
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
58
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
2. Abfrage an eine LOD Repository Sammlung
□ Vorteile:
□ Benötigt keine spezielle Programmlogik
□ Nachteile:
□ abgefragte Daten sind möglicherweise nicht immer aktuell
□möglicherweise sind nicht alle benötigten Datensätze in der Sammlung enthalten
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
59
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
3. Aufbau einer lokalen Kopie aus mehreren LOD Quellen
□ Idee:Nutze einen lokalen SPARQL Endpoint und kopiere alle relevanten LOD Datensätze darauf
□ = Data Centralization
□ LOD Datensätze können gewonnen werden aus
□ RDF Dumps (falls vorhanden)
□ (Focused) Crawling
□ z.B. Ldspiderhttp://code.google.com/p/ldspider/
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
60
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
3. Aufbau einer lokalen Kopie aus mehreren LOD Quellen
□ Vorteile:
□ Benötigt keine spezielle Programmlogik
□ Umfasst alle benötigten LOD Datensätze
□ Unabhängig von der Verfügbarkeit der originalen SPARQL Endpoints
□ Nachteile:
□ Aufwand bzgl. Aufbau und Wartung des lokalen SPARQL Endpoints
□ Kompliziert, wenn nicht auf RDF-Dumps zurückgegriffen werden kann
□ Synchronisation mit den originalen Daten notwendig, d.h. abgefragte Daten sind möglicherweise nicht immer aktuell
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
61
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
4. Nutzung eines föderierten Abfragesystems
□ Idee (traditioneller Ansatz):Ein Mediator wird zwischen Query und Datenquellen geschalten, der die Query in Subqueries zerlegt und die Ergebnisse wieder zusammenfasst
LOD1
LOD2
LOD3
MediatorQuery
Subquery1
Subquery2Subquery3
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
62
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
4. Nutzung eines föderierten Abfragesystems
□ Idee (traditioneller Ansatz):Ein Mediator wird zwischen Query und Datenquellen geschalten, der die Query in Subqueries zerlegt und die Ergebnisse wieder zusammenfasst
LOD1
LOD2
LOD3
MediatorResult
result1
result2
result3
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
63
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
4. Nutzung eines föderierten Abfragesystems
□ Vorteile:
□ Benötigt keine spezielle Programmlogik
□ Nachteile:
□ Abgefragte LOD Daten müssen über aktiven SPARQL-Endpoint verfügen
□ Abgefragte LOD-Datenquellen müssen im Voraus bekannt sein
□ Neue bzw. unbekannte LOD-Datenquellen werden nicht berücksichtigt (!)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
64
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
4. Nutzung eines föderierten Abfragesystems Mit Link Traversal Based Query Execution
□ Idee:Verknüpfe Auswertung der Query direkt mit Traversierung des RDF-Graphen
Query: Suche Publikationen des Vortragenden eines yovisto-Videos
speaker PND-id
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
65
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Query: Suche Publikationen des Vortragenden eines yovisto-Videos
speaker PND-id
http://www.yovisto.com/resource/video/6389
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
66
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Query: Suche Publikationen des Vortragenden eines yovisto-Videos
speaker PND-id
http://www.yovisto.com/resource/speaker/813
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
67
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Query: Suche Publikationen des Vortragenden eines yovisto-Videos
speaker PND-id
http://dbpedia.org/resource/Max_Planck
owl:sameAs <http://d-nb.info/gnd/118594818>
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
68
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Query: Suche Publikationen des Vortragenden eines yovisto-Videos
speaker PND-id
http://d-nb.info/gnd/118594818
:118594818 :preferredNameForThePerson "Planck, Max" ; :publicationOfThePerson "Planck, Max: Sinn und Grenzen der exakten Wissenschaft. - 1942"@de ; :publicationOfThePerson "Planck, Max: Der Kausalbegriff in der Physik. - 1932"@de ; :publicationOfThePerson "Planck, Max: Religion und Naturwissenschaft. - 1938"@de ; :publicationOfThePerson "Planck, Max: Kausalgesetz und Willensfreiheit. - 1923"@de ; :publicationOfThePerson "Planck, Max: Determinismus oder Indeterminismus? Vortrag. - 1938"@de ; :publicationOfThePerson "Planck, Max: Positivismus und reale Au\u00DFenwelt. - 1931"@de ; :publicationOfThePerson "Planck, Max: Sinn und Grenzen der exakten wissenschaft. - 1942"@de ; :publicationOfThePerson "Planck, Max: Significato e limiti della scienza esatta. - 1943"@de ; :publicationOfThePerson "Planck, Max: Wege zur physikalischen Erkenntnis. - 1944"@de .
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
69
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
4. Nutzung eines föderierten Abfragesystems mit Link Traversal Based Query Execution
□ Implementierungen:
□ Semantic Web Client library (SWClLib) for Javahttp://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/
□ SQUIN http://squin.org
□ Provides SWClLib functionality as a Web service
□ Accessible like a SPARQL endpoint
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
70
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Komplexe SPARQL Abfragen über mehrere SPARQL Endpoints hinweg
4. Nutzung eines föderierten Abfragesystems mit Link Traversal Based Query Execution
□ Vorteile:
□ Keine zusätzliche Programmlogik notwendig
□ Datenbestände sind stets aktuell
□ Nicht alle Datenbestände müssen im Voraus bekannt sein
□ Nachteile:
□ Online Query während Query Evaluation ist zeitaufwändiger als zentralisierte Abfrage
□ ABER: lokaler RDF-Store fungiert als Cache
□ Eventuell unvollständige Ergebnisse...
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
71 Linked Data Examples□ BBC Music (http://www.bbc.co.uk/music)
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
72 Linked Data Examples□ BBC Music Beta (http://www.bbc.co.uk/music)
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
73 Data.gov
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
74 Linked Data Anwendungsbeispiele□ DERI Semantic Web Pipes (http://pipes.deri.org/)
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.3 Linked Data @Work
□ Open Source,
□ Extendable
□ Embeddable
□ Web Data Mashups
□ Mashup Command Line Tool
□ produces output streams of data to be used by applications
5.Linked Data und Semantic Web Anwendungen
5.1.Linked Data Engineering
5.1.1.APIs vs. Linked Data
5.1.2.Linked Data Principles
5.1.3.Linked Data @Work
5.1.4.Linked Data Research Challenges
5.2.Semantische Suche
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
75
Semantic Web Technologien Vorlesungsinhalt
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
76
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
Linked Data Achievements■ Extension of the Web with a
data commons (27b RDF triples = facts)
■ Vibrant global RTD community
■ Industrial uptake starting(BBC, Thomson, Reuters, etc.)
■ Emerging governmental adoption in sight
■ Establishing Linked Data as a deployment path for the Semantic Web
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
77
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
Linked Data Challenges■ Coherence
relatively few, expensively maintained links
■ Qualitypartly low quality data and inconsistencies
■ Performancestill substantial penalties compared torelational database technologies
■ Data consumptionlarge scale processing, schema mapping anddata fusion still in its infancy
■ UsabilityMissing direct end user tools and network effect
Sören Auer:"Linked Data: Now what?"ESWC2010 Panel Discussion
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
78
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
79
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
80
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
A. Hoigan et al: Weaving the Pedantic Web, LDOW 2010
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
81
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
Selected Linked Data Research Challenges (1) Crawling the Semantic Web
(2) Structural Analysis
(3) Content-based Analysis
(4) Data Cleansing
(5) Heuristics for Ranking Semantic Web Data
(6) Augmenting Semantic Web Infrastructure
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
82
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
So what? ■ Interesting Facts to find out about
Semantic Web & Linked Data
■How big is the Semantic Universe?
■ # tripel
■ # documents
■ # interlinking
■ Linking Open Data is only registered vocabulary/data in the LOD-Wiki→ 27b RDF triples
■What else is out there ... and how much of it?
■ ...and how do we get it?
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
83
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
(1) Crawling the Semantic Web■Of course we are not the first to be out there...
■ SwoogleLi Ding et al: Finding and Ranking Knowledge on the Semantic Web, ISWC 2005.
■ Scutter/Slug Leigh Dodds: Slug: A Semantic Web Crawler, 2006
■ Sindice Giovanni Tumarello et al: Sindice.com - weaving the open linked data, ISWC 2007
→ 2.1b RDF triples
■ SWSE Andreas Harth et al: SWSE: Objects before Documents,
Semantic Web Challenge 2008, ISWC 2008
→ 1.1b RDF triples
■ FalconsG.Cheng et al.:Falcons: Searching and Browsing Entities on the Semantic Web, WWW17 2008.
→ 2.9b RDF triples
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
84
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
(2) Analyzing the Semantic Web I - Structural Analysis■ Again we are not the first to be out there...
■ Structural Analysis of the ,early‘ WWW
IN44m nodes
SCC56m nodes
OUT44m nodes
unconnected components
unconnected components
tunnels
appendices
appendices
A. Broder et al.: Graph structure in the Web. In Comput. Netw. 33, 1-6 (Jun. 2000), 309-320.
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
85
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
(2) Analyzing the Semantic Web I - Structural Analysis■ Again we are not the first to be there...
■ Structural Analysis of the ,early‘ Semantic Web
Weiyi Ge et al.: Object Link Structure in the Semantic Web, ESWC 2010
■ Experimental Setup
■ 18m RDF documents (Falcons crawl 2009)
■ 110m nodes with 190m edges■ Analysis of RDF link graph
■ average node degree: ≈3.4
■ effective diameter: ≈11.5
■ Largest connected component: ≈88% of all nodes
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
86
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
(3) Analyzing the Semantic Web II - Content-Based Analysis■ Again we are not the first to be there...
http://pedantic-web.org/
A. Hoigan et al: Weaving the Pedantic Web, LDOW 2010
■ 150k documents with more than 12m RDF triples
■ Discovered categories of symptoms:
■ incomplete → dead links
■ incoherent → no correct interpretation (local)
■ hijack → no correct interpretation (remote)
■ inconsistent → contradictions
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
87
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
(3) Analyzing the Semantic Web II - Content-Based Analysis■ Again we are not the first to be there...
Urbani et al: OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples, ESWC 2010■ Artificial Benchmark dataset used
Leigh University Benchmark (LUBM) with 100b RDF triples
■ Computing the transitive closure (= reasoning)
■ Making implicit knowledge explicit
Fabio Capello
Person
is a
San Canzian d‘IsonzohasBirthPlace
class membershipcan be deduced
PlacehasBirthPlace
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
88
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
(4) Analyzing the Semantic Web III - Data Cleansing■ trying to clean out Linked Open Data and possibly also (partially) the
Semantic Web...
(1) Identify inconsistencies and ambiguities by (automated) content-based analysis
(2)Solve inconsistencies & ambiguities
■ if possible by reasoning
■ else by crowdsourcing (game-based evaluation, etc.)
Cleaning out the Augean stables...AUGEAN-STABLES: Extremely nasty and smelly warehouses of filth, straw and manure
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
89
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
(5) Analyzing the Semantic Web IV - Data Ranking■ Linked Data provides (unbiased) knowledge
■ unbiased = no distinction of what is important, what is not important
■ e.g., Albert Einstein■ > 600 facts (triples)■ > 80 properties■ no ranking■ no relevance
http://dbpedia.org/page/Albert_Einstein
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
90
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
(5) Analyzing the Semantic Web IV - Data Ranking■We have developed heuristics for ranking objects and properties,
e.g.
:Albert_Einstein
:AmericanVegetarian
rdf:type
:Alfred_Kleiner
rdf:type
:Scientistrdf:type :Bill_Cosby
rdf:type
:doctoralAdviser
considered to be relevant
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
91
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
43 (6) Semantic Web Infrastructure - Tripel Stores■ RDF(S) Data is stored in Triple Stores
■ Basic idea:
■ Use 1 table with 3 columns (s,p,o)
■ For every row / row combinationcreate index structures for fast access(spo, sop, pos, pso, ops, osp)
■ Drawback: many self-joins needed(memory consumption)
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
92
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering / 5.1.4 Linked Data Research Challenges
Selected Linked Data Research Challenges (1) Crawling the Semantic Web
(2) Structural Analysis
(3) Content-based Analysis
(4) Data Cleansing
(5) Heuristics for Ranking Semantic Web Data
(6) Augmenting Semantic Web Infrastructure
(7) ...
5.Linked Data und Semantic Web Anwendungen
5.1.Linked Data Engineering
5.1.1.APIs vs. Linked Data
5.1.2.Linked Data Principles
5.1.3.Linked Data @Work
5.1.4.Linked Data Research Challenges
5.2.Semantische Suche
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
93
Semantic Web Technologien Vorlesungsinhalt
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
94
Nächste Vorlesung:
Semant
ic
Search
Albrecht Dürer: Melancholia I, 1514
Vorlesung Semantic Web Technologien, Dr. Harald Sack, Hasso-Plattner-Institut, Universität Potsdam
95
Materialien
□Bloghttp://web-flakes.blogspot.com/
□Materialien-Webseitehttp://www.hpi.uni-potsdam.de/meinel/lehre/lectures_classes/semanticweb_ws1011.html
□bibsonomy - Bookmarkshttp://www.bibsonomy.org/user/lysander07/swt1011_13
5. Linked Data & Semantic Web Anwendungen5.1 Linked Data Engineering