Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis

Large-Scale Information Extraction from Textual

Definitions through Deep Syntactic and

Semantic AnalysisTACL 2015

Claudio Delli Bovi, Luca Telesca and Roberto Navigli

Presentation: Koji Matsuda (Tohoku University)

1著者のスライドから一部の図を拝借しています：http://wwwusers.di.uniroma1.it/~dellibovi/talks/talk_OIE.pdf

すごい Knowledge Base

どんな論文？ : テキストから知識を抽出

• 本論文の主張 : – 文中のエンティティ・語義をグラウンディング

(WSD, EL) してから Open IE しましょう！– 密で質の良い ( 曖昧性が解消された ) 知識が獲得でき

ます 2

マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。「トロピカル・カクテルの女王」などと称されることもある。

主語述語目的語マイタイとはカクテルマイタイベースラムマイタイ称される「トロピ

… . 」: : :

<arg1, relation, arg2>

どんな論文？ : 曖昧性が解消された知識を作ります

• ポイント– Entity Linking, WSD, Parsing の結果得られたグラフか

ら知識獲得• エンティティ / 語義に紐付いた知識を構文木から獲

得⇔ 表層 (mention) に関する情報を獲得– 入力を「定義文」に絞る

• ノイズが少ないテキストから (Precision の高い ) 知識を獲得⇔ ノイジーなウェブスケールのコーパス (ClueWeb 等 ) から多様な知識を獲得

• 成果– Fully Disambiguated な KB– Open-vocabrary だけど ( 比較的 ) dense 3

グラウンディング (EL, WSD) してから知識を抽出

4



マイタイ ( MAI-TAI ) とは、ラムをベースとしたカクテルである。… .....

元にした

呼ばれる✓×

×✓

エンティティ語義主語述語目的語

マイタイ _bn038v とは _bn038v カクテル _bn038v

マイタイ _bn038v 元にした _bn038v ラム _bn038v

マイタイ _bn038v 呼ばれる _bn038v 「トロピ… . 」: : :

曖昧性が解消された知識ベース

入力を定義文に絞る

5

ここから精密に知識抽出します

ここは扱いません

背景 - 最近の KB 生成• Open IE とその子孫たち

– NELL [Carlson+, 2012] / ReVerb [Fader+, 2011] / Ollie [Mausam+, 2012]

• KB 拡張、特に Distant Supervision / Universal Schema– [Hoffmann+, 2011] / [Riedel+, 2010]

• どちらの技術も、– 「巨大なコーパスから , 多様な関係を取る」という方向性

に進化• その結果出てきている問題

– Argument も Relation も曖昧性が解消されていない– スパースすぎて使い物にならない

• 関係のロングテール6

DefIE

7

Dependency Parse

Entity Linking, WSD

このグラフから情報を取り出す

Syntactic-Semantic Graph からの知識獲得

8

エンティティペアの最短パスを取る不要な知識がいっぱい取れるので、スコアリングします

知識ベースを使ったスコアリング

9

知識ベースにグラウンドされているので、知識ベースを使って Relation の良し悪しをはかることが可能パタンの頻度

パタンの ( 項の ) 曖昧性Domain, Range の上位語を(BabelNet から ) 求めて、その上で曖昧性を計算パタンの長さ

スコアの計算例

10

Relation Taxonomization

11

Evaluation• 入力コーパス :

– BabelNet の ``definition’’ : 4.4M sentence• Wikipedia の first-sentence が主

– WSD, EL: • 比較

– NELL [Carlson+, 2010]– PATTY+Wikipedia [Nakashole+, 2012]– ReVerb+ClueWeb [Fader+, 2010]– WiSeNet+Wikipedia [Moro and Navigli, 2013]

12

グラフベースの手法 [Moro, 2013]

Evaluation (Size, Precision)

13

入力テキストコーパスは比較的小さい (4.4M Sentence)が、より多くの知識を獲得できている

定義文だけ Full Wikipedia

Full Wikipedia

ClueWeb09

Evaluation (Precision, Novelty)

14

サンプルした知識を人手で見て正しいか評価

等価な知識が存在するか、対抗 KBに対して人手で調査6 割の知識はReVerb では取れない

Evaluation (Coverage)

15

Musician に関する Wikipedia の記事 5 記事に対して人力 IE して Gold を作成、そのうちどれくらいをカバーできるか調査• FB, Dbpedia は本文の情報を使っていないFreebase から 100 個取ってくると、そのうち 83 個くらいは DefIE でカバーできている

ウェブスケールのコーパスを使わなくても、 7 割くらいカバーできる

Evaluation ( その他 )

16

non-definitional text を入力にすると、 precision がガクッと下がる

既存手法の入力をdefinitional text だけにすると、獲得数がガクッと下がる

従属節 , 共参照 etc…

まとめ

• モノの定義に関する「グラウンドされた知識」をテキストから抽出– EL, WSD, Parsing

• やみくもに大規模コーパスを使うのではなく、定義文のみから既存の KB に入っていないような知識が獲得できている

17

ここから知識を抽出

18

BabelNet• Multilingual Encyclopedic Dictionary

– Lexicographic & Encyclopedic knowledge– Based on Automatic Integration of :

• WordNet, Wikipedia, Wiktionary, …

Named Entities and specialized concepts from Wikipedia

Concepts from WordNet

50 Languages21M definitions62M entries

18Concepts integrated from both resources

19

Lexical Knolwdge Base

Encyclopedical Knolwdge Base

Integrated Knowledge Base

Thomas Muller

striker

Munich

Mario GomezThomas Millan

playing

FC Bayern MunichSemantic Interpretation Graph

Semantic Signature

→ Select most suitable meaning on the Graph

Thomas and Mario are strikers playing in Munich. They are …

Input Text

[Moro+, 2013]

Engineering

Large-Scale Information Extraction from Textual Definitions through Deep Syntactic and Semantic Analysis