16
文献紹介 (H26/7/28) So similar and yet incompatible: Toward automated identification of semantically compatible words 長岡技術科学大学 高橋寛治

20150728So similar and yet incompatible:Toward automated identification of semantically compatible words

Embed Size (px)

Citation preview

文献紹介(H26/7/28)

So similar and yet incompatible:Toward automated identification of semantically compatible words

長岡技術科学大学 高橋寛治

概要

• 考え方が面白いので紹介

• 意味的に両立できる語の特定への挑戦

• ニューラルネットワークによる特定と人手の結果を比べたところ、いい結果だった

• German Kruszewski, Marco Baroni, NAACL, 2015, pp.964-969

意味的に両立する語について

意味に関する研究

• ベクトルによる表現(Clark, 2015; Erk, 2012; Turney and Pantel, 2010)• 単語間の意味的類似

• 意味の関係は語の理解のための核となる性質

• ベクトルベースの分布意味モデル(distributional semantic models; DSMs)• 似た文脈に出現する単語は似た意味を持つという仮説

• 人の概念に対する知識を獲得すること

基本的な意味属性のヒント

• 「動物」「子犬」「猫」「犬」

• フィドは犬と私に伝えたとき

「フィドは動物であるが、猫ではない。そして子犬かもしれないと思う。」

• これを意味の両立性(compatibility)と呼ぶ

意味の両立性

• 単語1、単語2という表現が意味的に両立し、その時に同じ対象を指している

• とても曖昧な定義

• 犬が猫に変身するといった空想科学みたいなことは考えない

一般的に

• 一般的に両立する語は意味的に関係がある• 「犬」と「動物」

• それだけでは不十分• 「犬」と「猫」

• 「夫」と「邪魔者」• 意味的には近いとは言えない

• あなたは「犬」と「猫」になれない、しかし「ヴァイオリニスト」や「ドラマー」になれる

筆者らの主張

• 意味的に両立する語を特定することは、人間のような意味知識が要求されるドメインを助ける

• どう考えても、共参照解析では必ず必要• 「犬」と「子犬」、「猫」の関係

• 「生」と「死」は反義語• 「犬」と「猫」は反義語ではないが両立しない

筆者らの主張

• 質問応答や文書要約、機械翻訳などで言い換えによって活用

• たぶん同一指示• ヴァイオリニストもドラムを演奏する

• ドラマーもヴァイオリンを演奏する

• 一方、別の出来事• 犬は殺された、猫は殺された

実験

ベンチマーク

• 299語に対して人手で作成• 分類上は近い単語だが、意味的に両立しない語

• 動物と野菜

• 両立しやすい語• 親族に関する語、専門職に関する語

• 途中• ツール、場所

• 異なるレベルでの抽象化• 怪獣、動物、肉食動物・・・

• 両立できると期待できる語• 「邪魔者」「エキスパート」「仲間」・・・

• ランダムにペアを作成

予備実験

• 3Kのペアをクラウドソーシングで実験• 明らかに違うペア(アリとドラマーなど)を入れて真剣に解答したものかどうか確認

• 意味的に両立する語かどうかを答える• 動物か人間かも聞く• 信頼度を7段階でつけてもらう

• 結果、度合の平均1.10• ほとんどが意味的に両立しない

• 閾値により意味的に両立する語を取得• 専門家と犯罪者、丘と障害物、蛇と害虫

モデル

• DSMベクトルを入力とする• Word2vecにより抽出されたベクトル表現を利用

• 仮説• 簡単なセット間の相互作用は大部分を占める

• 両立しない:イグアナ/シマウマ• 両立する :同級生/友人

• 語1と語2は人間としての素性が大きいと考えられる

• これをニューラルネットワークに組み込む

• 新しい特徴ベクトルに変換

実験

• 訓練に7,228ペア、テストに7,336ペア,312ペアの開発データ

• 人間の評価との相関および、意味的に両立する語かどうかの判断

結果

• ランダムに生成されたペアの多くは両立しない語• 両立しないことを検出することに作用

まとめ

• 意味的に同一視できる語の特定を行った

• データセットを収集し、モデルを紹介

• 意味的に同一視できるモデルは、共参照解析や質問応答など多くのタスクに有効