Upload
koji-matsuda
View
290
Download
4
Embed Size (px)
Citation preview
Large-Scale Information Extraction from Textual
Definitions through Deep Syntactic and
Semantic AnalysisTACL 2015
Claudio Delli Bovi, Luca Telesca and Roberto Navigli
Presentation: Koji Matsuda (Tohoku University)
1著者のスライドから一部の図を拝借しています:http://wwwusers.di.uniroma1.it/~dellibovi/talks/talk_OIE.pdf
すごい Knowledge Base
どんな論文? : テキストから知識を抽出
• 本論文の主張 : – 文中のエンティティ・語義をグラウンディング
(WSD, EL) してから Open IE しましょう!– 密で質の良い ( 曖昧性が解消された ) 知識が獲得でき
ます 2
マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。「トロピカル・カクテルの女王」などと称されることもある。
主語 述語 目的語マイタイ とは カクテルマイタイ ベース ラムマイタイ 称される 「トロピ
… . 」: : :
<arg1, relation, arg2>
どんな論文? : 曖昧性が解消された知識を作ります
• ポイント– Entity Linking, WSD, Parsing の結果得られたグラフか
ら知識獲得• エンティティ / 語義 に紐付いた知識を構文木から獲
得⇔ 表層 (mention) に関する情報を獲得– 入力を「定義文」に絞る
• ノイズが少ないテキストから (Precision の高い ) 知識を獲得⇔ ノイジーなウェブスケールのコーパス (ClueWeb 等 ) から多様な知識を獲得
• 成果– Fully Disambiguated な KB– Open-vocabrary だけど ( 比較的 ) dense 3
グラウンディング (EL, WSD) してから知識を抽出
4
マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。「トロピカル・カクテルの女王」などと称されることもある。
マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。「トロピカル・カクテルの女王」などと称されることもある。
マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。… .....
元にした
呼ばれる✓×
×✓
エンティティ語義主語 述語 目的語
マイタイ _bn038v とは _bn038v カクテル _bn038v
マイタイ _bn038v 元にした _bn038v ラム _bn038v
マイタイ _bn038v 呼ばれる _bn038v 「トロピ… . 」: : :
曖昧性が解消された知識ベース
入力を定義文に絞る
5
ここから精密に知識抽出します
ここは扱いません
背景 - 最近の KB 生成• Open IE とその子孫たち
– NELL [Carlson+, 2012] / ReVerb [Fader+, 2011] / Ollie [Mausam+, 2012]
• KB 拡張、特に Distant Supervision / Universal Schema– [Hoffmann+, 2011] / [Riedel+, 2010]
• どちらの技術も、– 「巨大なコーパスから , 多様な関係を取る」という方向性
に進化• その結果出てきている問題
– Argument も Relation も曖昧性が解消されていない– スパースすぎて使い物にならない
• 関係のロングテール6
DefIE
7
Dependency Parse
Entity Linking, WSD
このグラフから情報を取り出す
Syntactic-Semantic Graph からの知識獲得
8
エンティティペアの最短パスを取る不要な知識がいっぱい取れるので、スコアリングします
知識ベースを使ったスコアリング
9
知識ベースにグラウンドされているので、知識ベースを使って Relation の良し悪しをはかることが可能パタンの頻度
パタンの ( 項の ) 曖昧性Domain, Range の上位語を(BabelNet から ) 求めて、その上で曖昧性を計算 パタンの長さ
スコアの計算例
10
Relation Taxonomization
11
Evaluation• 入力コーパス :
– BabelNet の ``definition’’ : 4.4M sentence• Wikipedia の first-sentence が主
– WSD, EL: • 比較
– NELL [Carlson+, 2010]– PATTY+Wikipedia [Nakashole+, 2012]– ReVerb+ClueWeb [Fader+, 2010]– WiSeNet+Wikipedia [Moro and Navigli, 2013]
12
グラフベースの手法 [Moro, 2013]
Evaluation (Size, Precision)
13
入力テキストコーパスは比較的小さい (4.4M Sentence)が、より多くの知識を獲得できている
定義文だけ Full Wikipedia
Full Wikipedia
ClueWeb09
Evaluation (Precision, Novelty)
14
サンプルした知識を人手で見て正しいか評価
等価な知識が存在するか、対抗 KBに対して人手で調査6 割の知識はReVerb では取れない
Evaluation (Coverage)
15
Musician に関する Wikipedia の記事 5 記事に対して人力 IE して Gold を作成、そのうちどれくらいをカバーできるか調査• FB, Dbpedia は本文の情報を使っていないFreebase から 100 個取ってくると、そのうち 83 個くらいは DefIE でカバーできている
ウェブスケールのコーパスを使わなくても、 7 割くらいカバーできる
Evaluation ( その他 )
16
non-definitional text を入力にすると、 precision がガクッと下がる
既存手法の入力をdefinitional text だけにすると、獲得数がガクッと下がる
従属節 , 共参照 etc…
まとめ
• モノの定義に関する「グラウンドされた知識」をテキストから抽出– EL, WSD, Parsing
• やみくもに大規模コーパスを使うのではなく、定義文のみから既存の KB に入っていないような知識が獲得できている
17
ここから知識を抽出
18
BabelNet• Multilingual Encyclopedic Dictionary
– Lexicographic & Encyclopedic knowledge– Based on Automatic Integration of :
• WordNet, Wikipedia, Wiktionary, …
Named Entities and specialized concepts from Wikipedia
Concepts from WordNet
50 Languages21M definitions62M entries
18Concepts integrated from both resources
19
Lexical Knolwdge Base
Encyclopedical Knolwdge Base
Integrated Knowledge Base
Thomas Muller
striker
Munich
Mario GomezThomas Millan
playing
FC Bayern MunichSemantic Interpretation Graph
Semantic Signature
→ Select most suitable meaning on the Graph
Thomas and Mario are strikers playing in Munich. They are …
Input Text
[Moro+, 2013]