Anno Accademico 2015-2016
Relatore: Prof. Tommaso di Noia Laureando:
Giorgio BasileCorrelatori: Ing. Azzurra Ragone, Ph.D. Dr. Paolo Tomeo
Similarità e relazionalità per Linked Open Data
Corso di Laurea Magistrale in Ingegneria Informatica
Tesi di Laureain
Logica e Intelligenza Artificiale
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
Sommario
§ Linked Open Data§ simLib§ Casi d’uso e risultati sperimentali
Ø KORE datasetØ Relatedness nel dominio musicaleØ Sistemi di raccomandazione content-based nel dominio
cinematografico§ Conclusioni e Sviluppi futuri
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
Linked Data
[Fonte:RDF1.1Primer,https://www.w3.org/TR/rdf11-primer/]
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
DBpedia
Wikipedia Infoboxhttps://en.wikipedia.org/wiki/A_Beautiful_Mind_(film)
DBpedia Entityhttp://dbpedia.org/resource/A_Beautiful_Mind_(film)
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
Wikidata
classificazione
fonte
qualificatore
http://www.wikidata.org/entity/Q42
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
SPARQLQuery #1
Opere d’arte ispirate alla Tour Eiffel [Fonte: Wikibase - https://goo.gl/mM3Qw9]
{"item":{
"type":"uri","value":"http://www.wikidata.org/entity/Q3821251"
},"itemLabel":{
"xml:lang":"en","type":"literal","value":"The Eiffel Tower"
},"creatorLabel":{
"xml:lang":"en","type":"literal","value":"Georges Seurat"
},"year":{
"datatype":"http://www.w3.org/2001/XMLSchema#integer","type":"literal","value":"1889"
},"image":{
"type":"uri","value":"http://commons.wikimedia.org/wiki/Special:FilePath/Georges%20Seu
rat%20043.jpg"},
}…
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
Farmaci che agiscono sui geni responsabili della proliferazione di cellule cancerose [Fonte: Wikibase - https://goo.gl/mM3Qw9]
SPARQLQuery #2
{”drug":{
"type":"uri","value":" http://www.wikidata.org/entity/Q17130597"
}, "drugLabel":{"xml:lang":"en","type":"literal","value":"Dacomitinib"
},"geneLabel":{"xml:lang":"en","type":"literal","value":"ERBB4”
},"biological_processLabel":{"xml:lang":"en","type":"literal","value":"cell proliferation"
},"diseaseLabel":{"xml:lang":"en","type":"literal","value":"breast cancer"
}}…
.
.
.
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
Google Knowledge Graph
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
Sistemi di raccomandazione
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
simLib: similarità e relatedness per LOD
§ Data model§ Interfacce unificate§ Modello estendibile§ Java 8
Ø Hash table dinamicheØ Parallelizzazione avanzataØ Stream APIØ Functional programming
(filter, collect, map, reduce,…)
[Fonte:Oracle,http://goo.gl/JVKTVH]
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
simLib: algoritmi implementati
𝑠𝑖𝑚$ 𝑚%, 𝑚' = cos(𝜃) =∑ 𝑤2,%,$ ⋅ 𝑤2,',$4256
∑ 𝑤2,%,$74256 ⋅ ∑ 𝑤2,',$74
256
=𝑉(𝑚%) ⋅ 𝑉(𝑚'9𝑉(𝑚%9 𝑉(𝑚'9
Vector Space Model [Di Noia et al., 2012] Jaccard Index [Phuong et al., 2012]
𝐽 α, 𝛽 =𝐴 ∩ 𝐵𝐴 ∪ 𝐵 =
𝐴∩ 𝐵𝐴 + 𝐵 − 𝐴 ∩ 𝐵
similarity
Reword [Pirrò, 2012] Centrality [Hulpus et al., 2015]
relatedness
𝐼D 𝑝𝑎𝑡ℎ 𝑢J, 𝑢K =𝑝𝑓𝑖𝑡𝑓MNO 𝑝 +𝑝𝑓𝑖𝑡𝑓%
NP 𝑝2
𝑟𝑒𝑙UVKWX 𝑥,𝑦 =
∑ 𝛼\]2 K̂_($)$`aDbc
d
𝑘
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
simLib: esempio d’uso
//estrazione grafoExtractor ext = new Extractor(DBPEDIA_ENDPOINT);List<Statement> statements = ext.startExtraction(dbpediaItems, readPaths(propsFile));
//lettura grafoGraph graph = GraphFactory.create(graphFile, itemsIDs, GraphFactory.LOCAL_GRAPH);Set<Path> featuredPaths = GraphFactory.readPaths(new File(FEATURED_PATHS), graph));
//calcolo similaritàSimilarityMetric vsm = new VectorSpaceModel(graph, featuredPaths);SimilarityMetric jac = new JaccardSimilarityMetric(graph, distance);
Map<Node, Double> vsmMap = vsm.computeSimilarityRank("http://dbpedia.org/resource/Pulp_Fiction");Map<Node, Double> jMap = jac.computeSimilarityRank("http://dbpedia.org/resource/Pulp_Fiction");
//calcolo relatednessRelatednessMetric rw = new Reword(graph, featuredPaths);RelatednessMetric cen = new Centrality(graph, k, length, alpha);
double rwValue = rw.computeRelatedness("http://dbpedia.org/resource/Pulp_Fiction","http://dbpedia.org/resource/Samuel_L._Jackson");
double cenValue = cen.computeRelatedness("http://dbpedia.org/resource/Pulp_Fiction","http://dbpedia.org/resource/Samuel_L._Jackson");
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
simLib@work
KORE [Hoffart et al., 2012]
DBpedia – Nodi: 53.914 – Archi: 112.826
Measure REWOrD C(0.25) C(0.5) C(0.75)
Apple 0,480 0,805 0,801 0,794
Google 0,624 0,852 0,820 0,820
Facebook 0,644 0,751 0,659 0,640
Microsoft 0,538 0,825 0,811 0,794
IBM 0,023 0,621 0,572 0,556
Average 0,462 0,771 0,733 0,721
Wikidata – Nodi: 110.344 – Archi: 316.747
Measure REWOrD C(0.25) C(0.5) C(0.75)
Apple 0,460 0,681 0,579 0,413
Google 0,543 0,587 0,519 0,433
Facebook 0,642 0,705 0,705 0,705
Microsoft 0,484 0,615 0,615 0,615
IBM -0,014 0,248 0,248 0,271
Average 0,304 0,567 0,533 0,487
MUSIC Wikidata – Nodi: 9103 – Archi: 24.293
1-10 11-20 21-30
TheBeatles
(band)
GeorgeHarrison blues NoelGallagher
RingoStarr AllYouNeed… LiamGallagher
PaulMcCartney rockandroll FoxboroHotTubs
JohnLennon Oasis BobWeir
rockmusic TheRollingStones raprock
NeilYoung LemmyKilmister JamesMorrison
HeyJude SteveWinwood alternative rock
psychedelicrock JohnnyCash RichardAshcroft
LetItBe Jet Kele Okereke
Sgt. Pepper's… BobDylan DannyWorsnop
1-10 11-20 21-30
TheDarkSideof
theMoon
(album)
PinkFloyd StevenWilson Scandal
Eclipse MikeOldfield AlanaGrace
RogerWaters SteveWinwood AlanisMorissette
progressiverock CaliforniaGirls MartyFriedman
TheWall Queen Petra
ThePostWar
Dreampsychedelicrock Rush
rockmusic BillieHoliday Rodríguez-Lopez
DavidGilmour Sainte-Marie ButtholeSurfers
SydBarrett AlexLifeson JerryGarcia
RingoStarr KylieMinogue Muse
Giorgio BasileLogica e IntelligenzaArtificiale Similarità e relazionalità per Linked Open Data
simLib: movie recommendations
Facebook dataset[Tomeo et al., 2016]
• 19.671 utenti• 876.501 likes• 3.907 film
0,14
0,15
0,16
0,17
0,18
0,19
0,20
0,21
0,22
0,23
10 20 30 40 50 60 70 80 90 100
1900
2100
2300
2500
2700
2900
3100
3300
3500
3700
10 20 30 40 50 60 70 80 90 1008,0
8,2
8,4
8,6
8,8
9,0
9,2
9,4
9,6
9,8
10,0
10 20 30 40 50 60 70 80 90 100
0,02
0,03
0,03
0,04
0,04
0,05
10 20 30 40 50 60 70 80 90 100
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =1𝑈 k𝑃N
m
N56
𝑀𝑅𝑅= 1𝑈 k
1𝑟𝑎𝑛𝑘N
m
N56
𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒=⋃ 𝑇𝑜𝑝𝑁(𝑢)N∈m
𝐼 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 = −k𝑟𝑒𝑐(𝑖)𝑡𝑜𝑡𝑎𝑙 𝑙𝑜𝑔
𝑟𝑒𝑐(𝑖)𝑡𝑜𝑡𝑎𝑙%∈v