28
PARIS: Probabilistic Alignment of Relations, Instances, and Schema Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart. PVLDB Vol. 5, No. 3, 2011. SWIM Seminar 10 th /Sept. 2013. Hiroyuki Inoue

PARIS at SWIM seminar

Embed Size (px)

DESCRIPTION

A paper introduction of "Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart: PARIS: Probabilistic Alignment of Relations, Instances, and Schema. PVLDB 5(3): 157-168 (2011)" at SWIM seminar.

Citation preview

Page 1: PARIS at SWIM seminar

PARIS: Probabilistic Alignment of

Relations, Instances, and Schema

Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart.

PVLDB Vol. 5, No. 3, 2011.

SWIM Seminar 10th/Sept. 2013.

Hiroyuki Inoue

Page 2: PARIS at SWIM seminar

概要

背景

関連研究

前提知識(Preliminary)

提案手法

評価実験,評価

まとめ

Outline

Page 3: PARIS at SWIM seminar

PARIS を提案

“Probabilistic Alignment of Relations, Instances, and Schema”

既存の手法は下記のどちらか一方に集中

インスタンス マッチング

スキーマ(クラス,プロパティ)アライメント

PARIS は上記二つを同時に行うアルゴリズム

確率モデルを採用

インスタンスマッチング,アライメントの情報を相互に利用

パラメータチューニング,トレーニングデータを必要としない

実世界の巨大なオントロジに適用して,90%前後の再現率を得た

概要(1/2)

Page 4: PARIS at SWIM seminar

ゴール: オントロジの統合

2つのオントロジがあるとき,以下を識別(特定)する

等価なインスタンス(sameAs)

等価な,もしくは包含するクラス (subClassOf)

等価な,もしくは包含する関係(subPropertyOf)

概要(2/2)

オントロジA KDEpedia(オントロジB)

a:HiroyukiInoue Kde:inohirosameAs

人間 学生

type type

クラス

インスタンス

subClassOf

“1989-02-20”

生年月日

“1989”

生まれた年subPropertyOf

リテラル

イベント係係

Twitter

@inohiro

“井上 寛之”

“井上 寛之”

rdf:label

rdf:label

Page 5: PARIS at SWIM seminar

独立したオントロジとそれに基づくデータの増加

Wikipedia をベースとした,多目的のオントロジ

DBpedia, YAGO, KnowItAll, WikiTaxonomy

freebase.com, trueknowledge.com, walframalpha.com (商用)

個々の領域におけるオントロジ

音楽,映画,地理,出版,医学,生物学,政府(公共機関)

基本的には他のオントロジを考慮せずに構築される

オントロジの統合と相互利用

オントロジ間の接続によって,全般的に利用可能な知識を構築

セマンティック ウェブの一つのゴール

データの相互利用(Linked Data)へつながる

背景(1/2)

Page 6: PARIS at SWIM seminar

数多くの研究が行われている

エンティティ レゾリューション[1, 4, 12, 17, 18, 25, 27, 28, 31]

スキーマアライメント [3, 14, 20, 21, 34]

しかし,近年オントロジはダイナミックに変化している

リッチなスキーマ構造,膨大な数のインスタンス・属性

スキーマとインスタンスの双方を豊かにする手法が必要

本研究では,どちらか一方ではなく,双方の情報を相互に利用

大規模な複数のオントロジ間において,一致するエンティティの発見と接続(リンク)を自動で行い,対象オントロジの補完を目指す

背景(2/2)

Page 7: PARIS at SWIM seminar

1)PARISを提案

確率論的アルゴリズム

異なるオントロジ間のインスタンス,クラス,関係を一斉にアライメント

2)アルゴリズムがどれだけ効率的に,チューニング無しで実現するのかを示す

3)現実のオントロジを用いて評価を行った

本論文での貢献

Page 8: PARIS at SWIM seminar

概要

オントロジマッチングは,本質的には重複したエンティティの発見

Identifying duplicate entities, Record linkage,

Duplicate detection, Co-reference resolution

DBやNLPの領域で研究されているが[7,9],オントロジには適用不可

1)オントロジの持つセマンティクスを考慮しない

タキソノミが持つ階層構造(rdfs:subClassOfなどで記述される)など

2)インスタンスのみに着目(スキーマ等は考慮していない)

オントロジにおける record linking に関する研究

全般的な問題の概要,same-As リンクに関する問題 [15]

same-As リンクに関する分析 [8]

セマンティックウェブにおける co-reference の管理 [13]

関連研究(1/3)

Page 9: PARIS at SWIM seminar

スキーマ アライメント (クラス間のマッチング) [14,12,3] sense clustering[14], lexical and structural characteristics[12],

composite approach[3]

一方,PARIS はインスタンス間のマッチングも考慮する

インスタンスの類似度から,クラス間の類似度を推定する [20,34]

PARIS に最も類似した手法

クラスに着目するが,subClass や property について取り扱わない

インスタンス マッチング [25, 27, 1, 4, 28]

本手法で用いる functionality の概念を提案 [17]

マッチングルールを明示する手法 [33],トレーニングデータからマッチングを学習する ObjectCoref [18]

PARIS はマッチングルール,トレーニングデータを必要としない

クラス間の類似度計算にインスタンスを用いる (実験なし) [16]

関連研究(2/3)

Page 10: PARIS at SWIM seminar

全体観的な(Holistic)アプローチ

スキーマとインスタンスのアライメントを同時に行う手法

二つ存在するが両方とも小さいオントロジでしかテストされていない

RiMOM [22]

クラス間のアライメントを行う(subClass の関係は見つけられない)

ヒューリスティクスもしくは,戦略的な手法から選択して実行する

一方,PARISはモノリシック(一貫した設計)

ILIADS [32]

プロパティが十分にあるオントロジでテストされていない

一方,PARISは100万インスタンスレベルの実世界オントロジで良い性能を示した

関連研究(3/3)

Page 11: PARIS at SWIM seminar

オントロジ

RDFS(RDF Schema)で記述されるオントロジを想定

O : Ontology, オントロジ

R : Resource, 実世界におけるモノ

L : Literal, リテラル値(文字列,数字,時刻,…)

P : Property (Relation)

resource-resource,resource-literal 間の関係を述べる(二値,binary)

関係 r(relation)

„x‟, „y‟ は関係 r の引数(argument),ペア

逆関係 r-1 (inverse)

クラス c (class)

クラスとインスタンス

クラスとインスタンスの関係

前提知識(1/5)

Page 12: PARIS at SWIM seminar

オントロジ

サブクラス subClass

クラス間の主従関係

推移する(transitive)

例: „学生‟は‟人間‟のサブクラス

サブプロパティ subProperty

プロパティの精密化,継承

推移する(transitive)

例: „生まれた年‟は‟生年月日‟のサブプロパティ

前提知識(2/5)

Page 13: PARIS at SWIM seminar

等価

異なるリソースが,同一の実世界のモノを指し示すとき,それらのリソースは等価と言える

インスタンスだけでなく,クラス,プロパティも扱う

それぞれのオントロジにおいて等価なリソースは存在しないと仮定

前提知識(3/5)

Page 14: PARIS at SWIM seminar

Function, Functionality

関係 r(x,y) において,与えられた第一引数(x)について,ただ一つの第二引数(y)が存在するとき,r は function である

例: 関係 „wasBornIn‟(出生地)は function である

ある人間において,出生地は必ず一つに定まる

関係 r が function であるとき,r(x,y) がオントロジAで存在し,かつ r(x,y‟) がオントロジBで存在するとき,y と y‟ は等価である

逆関係 r-1 も考える

(例が難しい…)

前提知識(4/5)

Page 15: PARIS at SWIM seminar

Function, Functionality の性質

1)関係 r について,一つでも間違い(inconsistency)が存在するならば,r は function ではない

実世界のオントロジは間違いが記述されている可能性を考慮する

2)関係 r が function でなくても,2つのエンティティが等価であることを示す材料になる

関係 „livesIn‟ は function でない(各々の人が,各々の場所に住む)

人々の大多数は一箇所に住むので,‟つくば‟に住んでいる人は,„つくば市‟にも住む.これは,‟つくば‟と‟つくば市‟の強い関係を示唆する

前提知識(5/5)

Local functionality Global functionality

Page 16: PARIS at SWIM seminar

概要

確率モデル

Hiroyuki Inoue inohiro

人間 学生

type type

“1989-02-20”

生年月日

“1989”

生まれた年

イベント係係

確率: クラス c1 が c2 のサブクラスである

確率: インスタンス x, y が等価である

確率: プロパティ p1 がp2 のサブプロパティである ?

Page 17: PARIS at SWIM seminar

リテラル値の等価性を前もって調べる

リテラル

Hiroyuki Inoue inohiro

人間 学生

type type

“1989-02-20”

^^xsd:date

生年月日

“1989”

^^xsd:gYear

生まれた年

イベント係係

文字列: 編集距離に反比例数値: 数的距離に比例他の型: 適切な距離関数(checksumなどを使うことも検討)(デフォルトでは,二つの異なるリテラルの等価確率は0)

“1989-02-20”(date型)と”1989”(year型)は同値とする ?

“井上 寛之”“井上 寛之”

名前名前

Page 18: PARIS at SWIM seminar

それぞれのインスタンスの関係を調べる

数少ないリソースが “井上 寛之” と呼ばれる

多くのリソースが “1989年” に生まれる

インスタンスの等価性(1/2)

a:HiroyukiInoue Kde:inohiro

人間 学生

type type

“1989”

^^xsd:gYear

生まれた年

“1989”

^^xsd:gYear

生まれた年

イベント係係

“井上 寛之”“井上 寛之”

名前名前

あるリソースへの入次数はinverse function で計算

Page 19: PARIS at SWIM seminar

インスタンス x, x‟ は次のとき等価であるとする

インスタンスの等価性(2/2)

a:HiroyukiInoue Kde:inohiro

人間 学生

type type

“1989”

^^xsd:gYear

生まれた年

“1989”

^^xsd:gYear

生まれた年

イベント係係

“井上 寛之”“井上 寛之”

名前名前多くの人は別々の

名前を持つ

1989年生まれの人は数多く存在する

述語論理を確率推定へリテラル: 計算済みその他: 再帰的に計算

Page 20: PARIS at SWIM seminar

„rdf:type‟ でリンクするリソースに注目

あるクラス c のすべてのインスタンスが,他のクラス d のインスタンスならば,c は d のサブクラスである

すべてのインスタンスが一致するならば,等価なクラス

クラスの等価性

井上

学生

rdf:type

Aさん Cさん 井上

人間

rdf:type

Cさん

Bさん Dさん

Aさん

subClassOf

Page 21: PARIS at SWIM seminar

ある関係 r のそれぞれのペアが,他の関係 r‟ の一つのペアであるなら,r は r‟ のサブプロパティである

すべてのペアが一致するならば,等価なプロパティ

関係の等価性

井上 Aさん

Dさん

井上

Aさん

Bさん

Cさん

Dさん

isAfriendOf knows

isAfriendOf knowssubPropertyOf

Page 22: PARIS at SWIM seminar

関係の等価性は,インスタンスの等価性に再帰的に依存

例)すべての市民が二つの国に住んでいる時,関係 ‟livesIn‟ のは functionalityは ½ になるが,インスタンスをすべて列挙せずに行うと,1になる場合がある

イタレーション

2)リテラル値の修正

3)インスタンスの等価性の確率計算

1)関係の等価性の確率計算

終)クラスの等価性の確率計算

アルゴリズムの流れ

収束まで繰り返す(リテラル値の置換えがなくなるまで?)

Page 23: PARIS at SWIM seminar

ベンチマーク

他の手法と比較するためのベンチマーク

Ontology Alignment Evaluation Initiative(OAEI)提供

Personデータ,Restaurantデータと,アライメントの基準が含まれる

Personデータ: 2回のイタレーション,2分で終了

Restaurantデータ: 3回のイタレーション,6秒で終了

それぞれ,ベースライン(ObjCoref)と比較

評価実験(1/5)

Page 24: PARIS at SWIM seminar

実世界のオントロジに対して実行

YAGO(Wikipediaなどから作成されたオントロジ,データ)

DBpedia(Wikipediaから作成されたオントロジ,データ)

IMDb(映画作品にかんするオントロジ,データ)

YAGO vs. IMDb は省略

各オントロジの統計

評価実験(2/5)

Page 25: PARIS at SWIM seminar

YAGO vs. DBpedia

4回のイタレーション

2つのオントロジは140万エンティティのみ共有していた

再現率を計算するために共有エンティティの数を数えた

適合率: 90%, 再現率: 73%

10個以上のプロパティを持つエンティティに限った場合: 97%, 85%

19の高階層クラスを得た

3つのエラー

1)いくつかクラスの分類を失敗,2)オントロジ自身の矛盾,3)オントロジが記述するインスタンスに偏りがあった

評価実験(3/5)

Page 26: PARIS at SWIM seminar

YAGO vs. DBpedia

等価と判定するしきい値を変化させたときの,適合率の変化

DBpedia内に一つでもアサインされたYAGOのクラス数の変化

評価実験(4/5)

Page 27: PARIS at SWIM seminar

YAGO vs. DBpedia

実際に得られた関係のアライメントの結果

評価実験(4/5)

Page 28: PARIS at SWIM seminar

PARIS を提案

自動的にRDFSで記述されたオントロジのアライメントを行う

他の多くの手法と異なり,インスタンス間のマッチングだけでなく,クラス間,関係(プロパティ)間のアライメントも行う

トレーニングデータ,パラメータチューニングを必要としない

オントロジアライメントのために,スキーマアライメント,インスタンスマッチングの情報を相互に利用する

実験において,非常に高い精度を示した

今後の課題

異種混合なオントロジは扱うことができない

まとめ

Aさん resultwonAward

event

Aさんwinner

Best~award