PARIS: Probabilistic Alignment of
Relations, Instances, and Schema
Fabian M. Suchanek, Serge Abiteboul, Pierre Senellart.
PVLDB Vol. 5, No. 3, 2011.
SWIM Seminar 10th/Sept. 2013.
Hiroyuki Inoue
概要
背景
関連研究
前提知識(Preliminary)
提案手法
評価実験,評価
まとめ
Outline
PARIS を提案
“Probabilistic Alignment of Relations, Instances, and Schema”
既存の手法は下記のどちらか一方に集中
インスタンス マッチング
スキーマ(クラス,プロパティ)アライメント
PARIS は上記二つを同時に行うアルゴリズム
確率モデルを採用
インスタンスマッチング,アライメントの情報を相互に利用
パラメータチューニング,トレーニングデータを必要としない
実世界の巨大なオントロジに適用して,90%前後の再現率を得た
概要(1/2)
ゴール: オントロジの統合
2つのオントロジがあるとき,以下を識別(特定)する
等価なインスタンス(sameAs)
等価な,もしくは包含するクラス (subClassOf)
等価な,もしくは包含する関係(subPropertyOf)
概要(2/2)
オントロジA KDEpedia(オントロジB)
a:HiroyukiInoue Kde:inohirosameAs
人間 学生
type type
クラス
インスタンス
subClassOf
“1989-02-20”
生年月日
“1989”
生まれた年subPropertyOf
リテラル
イベント係係
@inohiro
“井上 寛之”
“井上 寛之”
rdf:label
rdf:label
独立したオントロジとそれに基づくデータの増加
Wikipedia をベースとした,多目的のオントロジ
DBpedia, YAGO, KnowItAll, WikiTaxonomy
freebase.com, trueknowledge.com, walframalpha.com (商用)
個々の領域におけるオントロジ
音楽,映画,地理,出版,医学,生物学,政府(公共機関)
基本的には他のオントロジを考慮せずに構築される
オントロジの統合と相互利用
オントロジ間の接続によって,全般的に利用可能な知識を構築
セマンティック ウェブの一つのゴール
データの相互利用(Linked Data)へつながる
背景(1/2)
数多くの研究が行われている
エンティティ レゾリューション[1, 4, 12, 17, 18, 25, 27, 28, 31]
スキーマアライメント [3, 14, 20, 21, 34]
しかし,近年オントロジはダイナミックに変化している
リッチなスキーマ構造,膨大な数のインスタンス・属性
スキーマとインスタンスの双方を豊かにする手法が必要
本研究では,どちらか一方ではなく,双方の情報を相互に利用
大規模な複数のオントロジ間において,一致するエンティティの発見と接続(リンク)を自動で行い,対象オントロジの補完を目指す
背景(2/2)
1)PARISを提案
確率論的アルゴリズム
異なるオントロジ間のインスタンス,クラス,関係を一斉にアライメント
2)アルゴリズムがどれだけ効率的に,チューニング無しで実現するのかを示す
3)現実のオントロジを用いて評価を行った
本論文での貢献
概要
オントロジマッチングは,本質的には重複したエンティティの発見
Identifying duplicate entities, Record linkage,
Duplicate detection, Co-reference resolution
DBやNLPの領域で研究されているが[7,9],オントロジには適用不可
1)オントロジの持つセマンティクスを考慮しない
タキソノミが持つ階層構造(rdfs:subClassOfなどで記述される)など
2)インスタンスのみに着目(スキーマ等は考慮していない)
オントロジにおける record linking に関する研究
全般的な問題の概要,same-As リンクに関する問題 [15]
same-As リンクに関する分析 [8]
セマンティックウェブにおける co-reference の管理 [13]
関連研究(1/3)
スキーマ アライメント (クラス間のマッチング) [14,12,3] sense clustering[14], lexical and structural characteristics[12],
composite approach[3]
一方,PARIS はインスタンス間のマッチングも考慮する
インスタンスの類似度から,クラス間の類似度を推定する [20,34]
PARIS に最も類似した手法
クラスに着目するが,subClass や property について取り扱わない
インスタンス マッチング [25, 27, 1, 4, 28]
本手法で用いる functionality の概念を提案 [17]
マッチングルールを明示する手法 [33],トレーニングデータからマッチングを学習する ObjectCoref [18]
PARIS はマッチングルール,トレーニングデータを必要としない
クラス間の類似度計算にインスタンスを用いる (実験なし) [16]
関連研究(2/3)
全体観的な(Holistic)アプローチ
スキーマとインスタンスのアライメントを同時に行う手法
二つ存在するが両方とも小さいオントロジでしかテストされていない
RiMOM [22]
クラス間のアライメントを行う(subClass の関係は見つけられない)
ヒューリスティクスもしくは,戦略的な手法から選択して実行する
一方,PARISはモノリシック(一貫した設計)
ILIADS [32]
プロパティが十分にあるオントロジでテストされていない
一方,PARISは100万インスタンスレベルの実世界オントロジで良い性能を示した
関連研究(3/3)
オントロジ
RDFS(RDF Schema)で記述されるオントロジを想定
O : Ontology, オントロジ
R : Resource, 実世界におけるモノ
L : Literal, リテラル値(文字列,数字,時刻,…)
P : Property (Relation)
resource-resource,resource-literal 間の関係を述べる(二値,binary)
関係 r(relation)
„x‟, „y‟ は関係 r の引数(argument),ペア
逆関係 r-1 (inverse)
クラス c (class)
クラスとインスタンス
クラスとインスタンスの関係
前提知識(1/5)
オントロジ
サブクラス subClass
クラス間の主従関係
推移する(transitive)
例: „学生‟は‟人間‟のサブクラス
サブプロパティ subProperty
プロパティの精密化,継承
推移する(transitive)
例: „生まれた年‟は‟生年月日‟のサブプロパティ
前提知識(2/5)
等価
異なるリソースが,同一の実世界のモノを指し示すとき,それらのリソースは等価と言える
インスタンスだけでなく,クラス,プロパティも扱う
それぞれのオントロジにおいて等価なリソースは存在しないと仮定
前提知識(3/5)
Function, Functionality
関係 r(x,y) において,与えられた第一引数(x)について,ただ一つの第二引数(y)が存在するとき,r は function である
例: 関係 „wasBornIn‟(出生地)は function である
ある人間において,出生地は必ず一つに定まる
関係 r が function であるとき,r(x,y) がオントロジAで存在し,かつ r(x,y‟) がオントロジBで存在するとき,y と y‟ は等価である
逆関係 r-1 も考える
(例が難しい…)
前提知識(4/5)
Function, Functionality の性質
1)関係 r について,一つでも間違い(inconsistency)が存在するならば,r は function ではない
実世界のオントロジは間違いが記述されている可能性を考慮する
2)関係 r が function でなくても,2つのエンティティが等価であることを示す材料になる
関係 „livesIn‟ は function でない(各々の人が,各々の場所に住む)
人々の大多数は一箇所に住むので,‟つくば‟に住んでいる人は,„つくば市‟にも住む.これは,‟つくば‟と‟つくば市‟の強い関係を示唆する
前提知識(5/5)
Local functionality Global functionality
概要
確率モデル
Hiroyuki Inoue inohiro
人間 学生
type type
“1989-02-20”
生年月日
“1989”
生まれた年
イベント係係
確率: クラス c1 が c2 のサブクラスである
確率: インスタンス x, y が等価である
確率: プロパティ p1 がp2 のサブプロパティである ?
?
?
リテラル値の等価性を前もって調べる
リテラル
Hiroyuki Inoue inohiro
人間 学生
type type
“1989-02-20”
^^xsd:date
生年月日
“1989”
^^xsd:gYear
生まれた年
イベント係係
文字列: 編集距離に反比例数値: 数的距離に比例他の型: 適切な距離関数(checksumなどを使うことも検討)(デフォルトでは,二つの異なるリテラルの等価確率は0)
“1989-02-20”(date型)と”1989”(year型)は同値とする ?
“井上 寛之”“井上 寛之”
名前名前
それぞれのインスタンスの関係を調べる
数少ないリソースが “井上 寛之” と呼ばれる
多くのリソースが “1989年” に生まれる
インスタンスの等価性(1/2)
a:HiroyukiInoue Kde:inohiro
人間 学生
type type
“1989”
^^xsd:gYear
生まれた年
“1989”
^^xsd:gYear
生まれた年
イベント係係
?
“井上 寛之”“井上 寛之”
名前名前
あるリソースへの入次数はinverse function で計算
インスタンス x, x‟ は次のとき等価であるとする
インスタンスの等価性(2/2)
a:HiroyukiInoue Kde:inohiro
人間 学生
type type
“1989”
^^xsd:gYear
生まれた年
“1989”
^^xsd:gYear
生まれた年
イベント係係
?
“井上 寛之”“井上 寛之”
名前名前多くの人は別々の
名前を持つ
1989年生まれの人は数多く存在する
述語論理を確率推定へリテラル: 計算済みその他: 再帰的に計算
„rdf:type‟ でリンクするリソースに注目
あるクラス c のすべてのインスタンスが,他のクラス d のインスタンスならば,c は d のサブクラスである
すべてのインスタンスが一致するならば,等価なクラス
クラスの等価性
井上
学生
rdf:type
Aさん Cさん 井上
人間
rdf:type
Cさん
Bさん Dさん
Aさん
subClassOf
ある関係 r のそれぞれのペアが,他の関係 r‟ の一つのペアであるなら,r は r‟ のサブプロパティである
すべてのペアが一致するならば,等価なプロパティ
関係の等価性
井上 Aさん
Dさん
井上
Aさん
Bさん
Cさん
Dさん
isAfriendOf knows
isAfriendOf knowssubPropertyOf
関係の等価性は,インスタンスの等価性に再帰的に依存
例)すべての市民が二つの国に住んでいる時,関係 ‟livesIn‟ のは functionalityは ½ になるが,インスタンスをすべて列挙せずに行うと,1になる場合がある
イタレーション
2)リテラル値の修正
3)インスタンスの等価性の確率計算
1)関係の等価性の確率計算
終)クラスの等価性の確率計算
アルゴリズムの流れ
収束まで繰り返す(リテラル値の置換えがなくなるまで?)
ベンチマーク
他の手法と比較するためのベンチマーク
Ontology Alignment Evaluation Initiative(OAEI)提供
Personデータ,Restaurantデータと,アライメントの基準が含まれる
Personデータ: 2回のイタレーション,2分で終了
Restaurantデータ: 3回のイタレーション,6秒で終了
それぞれ,ベースライン(ObjCoref)と比較
評価実験(1/5)
実世界のオントロジに対して実行
YAGO(Wikipediaなどから作成されたオントロジ,データ)
DBpedia(Wikipediaから作成されたオントロジ,データ)
IMDb(映画作品にかんするオントロジ,データ)
YAGO vs. IMDb は省略
各オントロジの統計
評価実験(2/5)
YAGO vs. DBpedia
4回のイタレーション
2つのオントロジは140万エンティティのみ共有していた
再現率を計算するために共有エンティティの数を数えた
適合率: 90%, 再現率: 73%
10個以上のプロパティを持つエンティティに限った場合: 97%, 85%
19の高階層クラスを得た
3つのエラー
1)いくつかクラスの分類を失敗,2)オントロジ自身の矛盾,3)オントロジが記述するインスタンスに偏りがあった
評価実験(3/5)
YAGO vs. DBpedia
等価と判定するしきい値を変化させたときの,適合率の変化
DBpedia内に一つでもアサインされたYAGOのクラス数の変化
評価実験(4/5)
YAGO vs. DBpedia
実際に得られた関係のアライメントの結果
評価実験(4/5)
PARIS を提案
自動的にRDFSで記述されたオントロジのアライメントを行う
他の多くの手法と異なり,インスタンス間のマッチングだけでなく,クラス間,関係(プロパティ)間のアライメントも行う
トレーニングデータ,パラメータチューニングを必要としない
オントロジアライメントのために,スキーマアライメント,インスタンスマッチングの情報を相互に利用する
実験において,非常に高い精度を示した
今後の課題
異種混合なオントロジは扱うことができない
まとめ
Aさん resultwonAward
event
Aさんwinner
Best~award