77
N a t i o n a l C h e n g c h i U n i v e r s i t y 國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis 基於英文維基百科之文字蘊涵 Text Entailment based on English Wikipedia 生:林柏誠 指導教授:劉昭麟 中華民國一百零三年十一月 November 2014

國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

國立政治大學資訊科學系 Department of Computer Science

National Chengchi University

碩士論文

Master’s Thesis

基於英文維基百科之文字蘊涵

Text Entailment based on English Wikipedia

研 究 生:林柏誠

指導教授:劉昭麟

中華民國一百零三年十一月

November 2014

Page 2: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

基於英文維基百科之文字蘊涵

Text Entailment based on English Wikipedia

研 究 生:林柏誠 Student:Po-Cheng Lin

指導教授:劉昭麟 Advisor:Chao-Lin Liu

國立政治大學

資訊科學系

碩士論文

A Thesis

submitted to Department of Computer Science

National Chengchi University

in partial fulfillment of the requirements

for the degree of

Master

in

Computer Science

中華民國一百零三年十一月

November 2014

Page 3: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

誌 謝

隨著求學生涯的結束,我的碩士論文也終於完成,審視

我的人生經歷,這或許是我體驗最多挫折、學習到最多知識,

以及成長最多得一個時期,在建構系統以及撰寫論文的過程

中,經過反覆的思考、建構、失敗、重建過程中,我體會到

碩士論文的完成,要培養的是一個人的獨立思考和獨立研究

的能力,非常謝謝劉昭麟老師不管是在我的研究上,或者是

在學習態度上,甚至在人生道路上,給予我很多不同的思維

以及正確的態度, 也要謝謝建良、孫暐和瑋杰學長在研究

上面給予我許多幫助,也謝謝書佑、致凱、植琨、聖傑、國

峯、博允學弟,陪伴我度過漫漫的研究生活。

人生的下個階段,就在離開學校後揭開了序幕,我會牢

記老師在這兩年半的教導,以及這兩年半所學習到的點點滴

滴,一併跟著我進入下一個階段,希望能在社會上貢獻一己

的力量,讓社會因為有我的加入,多了一點點的改變。

林柏誠 謹誌

Page 4: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

i

基於英文維基百科之文字蘊涵

摘要

近年來文字蘊涵研究在自然語言處理中逐漸受到重視,從 2005 年 Recognizing Textual

Entailment (RTE)舉辦英文語料相關評比開始,越來越多人開始投入文字蘊涵的相關研

究,而 NII Testbeds and Community for information access Research(NTCIR) 也從第九屆

開始舉辦 Recognizing Inference in Text(RITE) 的相關評比,除了英文語料以外,亦包含

繁體中文、簡體中文以及日文等等的語料,開始引起亞洲地區相關研究者的關注參加。

本研究以文字蘊涵技術為基底,透過維基百科,判斷任一論述句其含義是與事實相

符,或與事實違背,我們依據論述句的語文資訊,在維基百科中找出與論述句相關的文

章,並從中尋找有無相關的句子,支持或反對該論述句的論點,藉以判斷其結果。

我們將本系統大致分成了三個程序,第一步是先從維基百科中擷取與論述句的相關

文章,接著我們從相關文章中擷取與論述句有關聯的相關句,最後則是從找出的相關句

中,判別那些相關句是支持還是反對該論述句,並透過 Linearly Weighted

Functions(LWFs) 藉以判別每個相關特徵的權重和各項推論的門檻值,期許透過上述的

方法以及各項有效的語言特徵,能夠推論出論述句的真實與否。

Page 5: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

ii

Text Entailment based on English Wikipedia

Abstract

In recent years, the research of textual entailment is getting more important in Natural

Language Processing. Since Recognizing Textual Entailment (RTE) began to hold the contest

of English corpus in 2005, more and more people start to engage in the related research.

Besides, NTCIR ninth has held the related task Recognizing Inference in Text (RITE) in

Chinese, Japanese, and others languages corpus. Therefore it has gradually attracted Asian

people to focus on this area.

In this paper, we based on the skill of textual entailment. Trying to validate any of input

sentences which are truth or against to the fact. According to the language information in

input sentences, we extract the related articles on Wikipedia. Then, we extract the related

sentences from those articles and recognizing them which are support or against the input

sentence. Hence, we can use that information to validate the input sentences.

Our system is roughly departed into three parts. First is extract related articles from

Wikipedia, second is extract related sentences from related articles. The last is validate those

sentences which are support or against the input sentence. We also adopt Linear Weight

Functions (LWFs) to adjust every features parameters and entailment’s threshold. By the

information and useful language features above, we hope it can validate whether input

sentences is truth or not.

Page 6: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

iii

目錄

第 1 章 緒論 ............................................................................................................................ 1

1.1 研究背景與動機 ......................................................................................................... 1

1.2 方法概述 ..................................................................................................................... 2

1.3 主要貢獻 ..................................................................................................................... 2

1.4 論文架構 ..................................................................................................................... 3

第 2 章 文獻回顧 .................................................................................................................... 4

2.1 文字蘊涵相關研究 ..................................................................................................... 4

2.2 RTE 與 RITE 評比相關研究 ....................................................................................... 5

第 3 章 語料及辭典介紹 ........................................................................................................ 7

3.1 語料集 ......................................................................................................................... 7

3.2 英文維基百科 ............................................................................................................. 9

3.3 WordNet ........................................................................................................................ 9

第 4 章 研究方法 .................................................................................................................. 10

4.1 擷取相關文章及相關句 ........................................................................................... 10

4.1.1 擷取相關文章 ................................................................................................ 11

4.1.2 擷取相關文章 ................................................................................................ 16

4.2 相關度計算 ............................................................................................................... 18

4.2.1 相關句權重 .................................................................................................... 19

4.2.2 文章權重 ........................................................................................................ 25

4.2.3 相關句綜合權重 ............................................................................................ 26

Page 7: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

iv

4.3 推論驗證系統 ........................................................................................................... 26

4.3.1 語文特徵介紹 ................................................................................................ 27

4.3.2 LWFs 公式與參數訓練方法 .......................................................................... 39

第 5 章 系統效能評估 .......................................................................................................... 42

5.1 Linearly Weighted Functions 參數及門檻值介紹 ..................................................... 42

5.2 實驗結果與討論 ........................................................................................................ 44

第 6 章 利用資訊檢索方法採取小規模實驗設計 .............................................................. 51

6.1 方法概述 ................................................................................................................... 51

6.2 語料介紹 ................................................................................................................... 52

6.3 實驗結果 ................................................................................................................... 54

第 7 章 結論與未來展望 ...................................................................................................... 55

7.1 結論..………………………………………………………………………………...59

7.2 未來展望 .................................................................................................................... 60

參考文獻 .................................................................................................................................. 62

附錄 相關文章與相關句範例 ................................................................................................ 65

Page 8: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

v

圖目錄

圖 3.1 語料範例 ........................................................................................................................ 7

圖 4.1 系統流程圖 .................................................................................................................. 10

圖 4.2 擷取相關文章及相關句流程 ...................................................................................... 11

圖 4.3 論述句範例 .................................................................................................................. 12

圖 4.4 詞彙相依性標記 .......................................................................................................... 13

圖 4.5 近義詞範例 .................................................................................................................. 13

圖 4.6 詞性標記 ...................................................................................................................... 14

圖 4.7 連續詞彙範例 .............................................................................................................. 15

圖 4.8 關鍵詞擷取維基百科文章 .......................................................................................... 16

圖 4.9 文章斷句範例 .............................................................................................................. 17

圖 4.10 相關度計算流程 ........................................................................................................ 18

圖 4.11 BLEU 句對範例 ......................................................................................................... 21

圖 4.12 結構樹範例 ................................................................................................................ 22

圖 4.13 結構樹比較 ................................................................................................................ 23

圖 4.14 相關度計算範例 ........................................................................................................ 24

圖 4.15 開根號曲線圖 ............................................................................................................ 25

Page 9: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

vi

圖 4.16 推論判斷流程 ............................................................................................................ 27

圖 4.17 否定詞範例 ................................................................................................................ 29

圖 4.18 反義詞範例 ................................................................................................................ 30

圖 4.19 反義詞與否定詞範例 ................................................................................................ 30

圖 4.20 Lucene 否定副詞表 ................................................................................................... 31

圖 4.21 詞彙相依標記範例一 ................................................................................................ 31

圖 4.22 詞彙相依標記範例二 ................................................................................................ 32

圖 4.23 主動與被動句對比較 ................................................................................................ 33

圖 4.24 數字標記範例一 ........................................................................................................ 35

圖 4.25 數字標記範例二 ........................................................................................................ 35

圖 5.1 區域最佳解 .................................................................................................................. 43

圖 5.2 訓練語料結果圖一 ...................................................................................................... 46

圖 5.3 訓練語料結果圖二 ...................................................................................................... 47

圖 5.4 測試語料結果圖 .......................................................................................................... 50

Page 10: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

vii

表目錄

表 3.1 英文測試語料集統計 .................................................................................................... 8

表 3.2 英文訓練語料集數量統計 ............................................................................................ 8

表 4.1 詞彙相依關係有向圖 M1............................................................................................ 37

表 4.2 詞彙相依關係有向圖 M2............................................................................................ 37

表 4.3 詞彙相依關係有向圖 M1∪M2 .................................................................................. 38

表 4.4 詞彙相依關係有向圖 M1∪M2 與橋梁詞彙 ............................................................. 38

表 5.1 訓練語料結果一 .......................................................................................................... 45

表 5.2 訓練語料結果二 .......................................................................................................... 47

表 5.3 測試語料結果 .............................................................................................................. 50

表 6.1 實驗結果—資訊檢索法 ............................................................................................. 55

表 6.2 實驗結果-標題搜尋法 ................................................................................................ 55

表 6.3 相關句分析一 ............................................................................................................. 56

表 6.4 相關句分析二 .............................................................................................................. 57

表 6.4 相關句分析二(續) ....................................................................................................... 58

Page 11: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

1

第 1 章 緒論

1.1 研究背景與動機

文字蘊涵[23]的相關評比最早可以追朔到 2005 年 Recognizing Textual Entailment

(RTE)[16]所舉辦英文語料相關評比開始,所謂的文字蘊涵就是,當擁有兩個文

字片段 A 和 B 時,如果可以將其中一個文字片段 A 的含意推論到另一個文字片

段 B,也就是說 A 文字片段所擁有的語文資訊完全包含了 B 文字片段的語文資

訊,因此 A 的資訊便足夠推導致 B 的資訊,我們就可以稱兩文字片段具有推論

的關係,也稱之為文字蘊涵關係。然而文字蘊涵關係是有方向性的,文字片段 A

可以推論至文字片段 B,並不代表反向也是如此,以下句對為例,A 句可以推論

至 B 句,而 B 句卻無法推論至 A 句,因為 B 句的語文資訊並沒有包含 A 句所有

的語文資訊。

A:日本時間 2011 年 3 日 11 日發生芮氏規模 9.0 強震,造成死傷失蹤約 3 萬多人。

B:日本曾發生規模 9.0 地震。

在本論文的研究中,我們參加了 NTCIR (NII Testbeds and Community for

information access Research) 的 子 任 務 RITE-VAL (Recognizing Textual

Entailment- Validation)[15]的評比,其評比內容即是藉由文字蘊涵的技術,透過維

基百科[25],自動地辨別任一論述句的真實性,我們使用自然語言處理、資訊檢

Page 12: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

2

索和機器學習等技術,希望能成功地辨別任一論述句是與事實相符或是違背於事

實,例如使用者輸入了一個論述句:「張學友生於 1960 年。」,而我們的系統卻

在維基百科中擷取出某相關句如:「張學友在 1961 年 7 月 10 日,生於香港,祖

籍天津。」,因此就可以判斷出該論述句違背於事實,與維基百科所擷取出的相

關句是一組矛盾的蘊涵關係。我們希望透過從線上維基百科中擷取相關的資訊,

透過該資訊與論述句的特徵擷取,來辨別其關係。

1.2 方法概述

藉由維基百科擷取出相關的資訊,用以辨別任一論述句的真實性,為本論文的主

旨,因此如何擷取出有用的資訊顯得十分重要,我們將擷取資訊的方法分成兩個

階段,第一階段是透過論述句的語文資訊,用其語文資訊來對維基百科擷取「相

關文章」,第二階段則是將擷取出的相關文章中,所有的句子,依據它們與論述

句的相關性作為「相關句」的篩選,最後將篩選出來的相關句透過與論述句的特

徵擷取,利用 Linearly Weighted Functions(LWFs)[11]的方法,判斷出該論述句為

事實句(Entailment),或與事實違背(Contradiction)。

1.3 主要貢獻

在本研究中,我們提出了一些方法用來擷取相關文章及相關句,在相關句的部

分,每一個句子依然有它們的相關度排名存在,因此在相關度的計算上,我們也

提出了一個綜合評比的方式,考量了該句子與論述句的相關性,與該句子其文章

的出處,整合出其相關度。

我們提出來一些語文特徵,例如剖析樹的相似度和詞彙相依關係的相似度以

及否定關係的判別上,有別於以往的作法,在方法上做一些調整和改良,也整合

了過去廣泛使用於文字蘊涵的方法作為本研究的特徵。

Page 13: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

3

最後我們採用 LWFs 的方式訓練各項特徵的參數,建置一個辨別事實與否的

模組。

1.4 論文架構

本論文共分為六章,第一章為緒論,說明研究背景、動機、目的、問題描述及論

文架構;第二章探討過去文字蘊涵的相關研究,包含各種中英文語句推論關係的

方法,如機器學習、知識為基底(Knowledge-based)、邏輯推論等作法,以及各種

語言特徵的擷取與詞彙語意分析等內容;第三章說明所使用的語料集,以及用來

輔助推論系統的辭典;第四章則說明本研究提出的系統架構,大致分為三個程

序,包含擷取相關文章及相關句、相關度計算,以及推論驗證系統;第五章設計

實驗方法與進行測試語料預測結果,第六章則利用資訊檢索方法採取小規模實驗

設計, 最後我們在第七章總結本研究的成果與發現,並提出目前不足之處以及

未來改善的方向,以利後續的研究與應用。

Page 14: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

4

第 2 章 文獻回顧

本節針對過去文字蘊含的相關研究,與 RITE 及 RTE 評比中的語句推論研究進行

回顧。

2.1 文字蘊涵相關研究

過去文字蘊涵相關研究採用許多不同的方法,透過經驗法則公式[8],或藉著機

器學習演算法來建構系統,例如使用 SVM、決策樹(Decision Tree)等演算法,或

使用投票(Voting)綜合多種分類器等方式來預測推論關係。Huang[9]等人透過經

驗法則式模型和機器學習演算法與特徵項來建構系統,將常見的語句資訊擷取出

來做為特徵,並針對實體名詞標記、日期與數字處理,提升文字中資訊擷取的能

力,也對句法結構、近義詞、反義詞等作相關特徵擷取,從研究中顯示,透過不

同的語文特徵擷取以及不同的實驗方法交互比對,能有效獲得語句中的資訊。

Wu[28]等人亦透過機器學習演算法,利用機器翻譯效能評估的 BLEU[2]分數及句

子長度做為特徵訓練分類器。而 Zhang[29]等人提出加入語意相關特徵處理,透

過上下位詞、同義詞與反義詞等資訊,來進行語意的推論,並使用多種機器學習

的演算法,透過投票的機制更能有效地提升推論關係判斷的準確率。

在句子結構相似度計算的部分,Cohen[4]等人提出了兩個演算法 pq-gram

distance 和 Dynamic algorithm for subtree similarity-search 方法,作為句子結構樹

的相似度計算,而 Li[10]等人提出了利用兩剖析樹,計算 Largest Common

Subtree(LCST) 和 Smallest Common Super-tree(SCST) 然後透過三個運算方式

1. Substitution 2. Deletion 3. Insertion 來計算樹與樹之間的距離,能有效的計算出

Page 15: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

5

兩個句子結構樹的相似程度,藉以判斷出其語文資訊的相符之處。

在詞彙語意的分析中,WordNet[26]是一個線上英文辭典,能判斷同義詞、

反義詞、上位詞或下位詞等詞彙間的關係,WordNet 提出一套知識表達的方法,

將詞彙分成各種同義詞集(Synset),並提供簡短的語意說明,根據詞彙的分類建

置為一套具有蘊涵關係的層次結構,因此使用者可以根據這些資訊來作為文本的

分析與人工智慧的應用。Budanitsky 與 Hirst[3]便以 WordNet 為基礎,提出數種

詞彙間語意的相似度計算的方法,藉以比較詞彙之間的語意關係。

2.2 RTE 與 RITE 評比相關研究

文字蘊涵的相關比賽始於 RTE 評比,在 RTE 中發展出各種作法來提升語句推論

的效果。Adams[1]的研究採用詞彙覆蓋(Lexical Overlap)的相似度判斷推論關

係,並加入 WordNet 以拓展詞彙的鏈結關係來達到更佳的相似度計算效果,但

這樣的系統仍然過於簡易,在 RTE 評比中的僅能獲得中等的成績,而需要更多

的語言資訊輔助來提升推論效果,但此種較容易計算推論關係的作法提供我們一

個不錯的嘗試機會。而同樣地,機器學習的分類器仍然在語句推論中是經常被運

用的一種技術,Hickl[7]等人透過詞彙對齊(Textual Alignment)擷取可能指出推論

關係的詞彙特徵,以及加上如句子極性(Polarity)或否定標記等語意特徵和標記詞

彙之間的依賴關係來計算特徵,最後採用分類器預測推論關係,否定標記及詞彙

依賴關係的語法結構特徵在推論關係的判斷上也具有不錯的效果。

在 RITE 的評比中,我們也發現多數的隊伍在研究文字蘊涵時,都有使用

詞彙覆蓋與句子表面相似度,作為判別文字蘊涵的重要特徵,然而這些方法並不

足以有效的判別文字的蘊涵關係,因此某些方法如 Wu[27]所提出的 LCS

Similarity 用來判別及句對的最長相同字串,當作判別蘊含的依據,或是

Hattori[6]利用句子表面相似度和句意相似度的高低,組合成一個 2x2 的矩陣作

Page 16: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

6

為判別的策略,可以進一步的分析 2x2 四種情況的組合會在什麼情況下發生,

例如當表面相似度很高但句意相似度卻很低時,可以猜想句對中可能有不同數量

的否定詞存在,透過上述的方式,在文字蘊涵推論的判斷上,都是相當實用且具

有不錯效果的方法。

我們的研究利用機器學習的方法,以 Linearly Weighted Functions(LWFs) 建

構一套推論模型,並透過多種的方式和語文特徵提升系統的推論能力和對於句子

語意的理解,接下來我們將提出幾項方法來建置推論系統。

Page 17: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

7

第 3 章 語料及辭典介紹

本章說明此研究使用的 RITE-VAL 英文語料集,首先說明語料內容,並列出語料

的相關統計數據,接著介紹英文維基百科和 WordNet 辭典的相關說明。

3.1 語料集

我們經由參與 NTCIR 的評比,取得 RITE 的訓練(Dev.)與測試(Test)語料集,語料

的類型為英文的論述句。圖 3.1 為本語料集的資料範例,而語料類型範圍廣泛:

諸如歷史、經濟、政治、戰爭等等,每筆資料皆有一個編號記錄,並包含一個句

子 t2,而 label 代表的是我們能否從維基百科中找出相對應的 t1,並檢驗 t1 的內

容是否能推論出 t2 中的假設,Y 表示該句為事實句,N 則代表違背事實。我們

共取得了 NTCIR-10 RITE-2 和 NTCIR-11 RITE-VAL 的訓練與測試語料,表 3.1

和表 3.2 為訓練與測試語料集的數量統計。

<pair label="Y" id="210">

<t2>United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations.</t2>

</pair>

<pair label="N" id="218">

<t2>During the Cold War, the United Nations continued efforts aimed at alleviating the tension between the USA and the Soviet Union based on the Marshall Plan.</t2><

/pair>

圖 3.1 語料範例

Page 18: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

8

表 3.1 英文測試語料集統計

來源 NTCIR-11

語言 英文

類別 Test.

總和 188

表 3.2 英文訓練語料集數量統計

來源 NTCIR-10 & NTCIR-11

語言 英文

類別 Dev

Y 229

N 151

總和 362

Page 19: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

9

3.2 英文維基百科

維基百科(Wikipedia),是一個自由內容、公開編輯且多語言的網路百科全書協

作計畫,透過 Wiki 技術使得包括您在內的所有人都可以簡單地使用網頁瀏覽器

修改其中的內容。維基百科一字取自於核心技術「Wiki」以及具有百科全書之意

的「encyclopedia」共同創造出來的新混成詞「Wikipedia」,當前維基百科是由非

盈利組織維基媒體基金會負責營運,並接受捐贈。

維基百科是由來自世界各地的志願者合作編輯而成,整個計畫總共收錄了超

過 3,000 萬篇條目,而其中英語維基百科以超過 450 萬篇條目在數量上排名第

一。維基百科允許任何存取網站的使用者使用網頁瀏覽器自由閱覽和修改絕大部

分頁面的內容,根據統計在維基百科上大約有 35,000,000 名登記註冊使用者,其

中有 100,000 名積極貢獻者長期參與編輯工作。

3.3 WordNet

WordNet[26]是由普林斯頓大學所發展的一套線上電子辭典,自 1985 年開發維護

至今,當中收錄大量的英文詞彙,包含動詞、名詞、副詞和形容詞等詞性。WordNet

的設計本身已經將英文詞彙以同義詞集(Synset)作為分類,每項分類代表個別的

一個語意概念,各個同義詞集在 WordNet 中透過概念語意與詞性作為鏈結。而

WordNet 經由同義詞集的分析,可以取得詞彙的反義詞(Antonym)、上位詞

(Hypernym)和下位詞(Hyponym)。在這裡我們採用 WordNet 2.1 的版本加入到本

研究當中,使用 JAWS 工具對 WordNet 的辭典解析,我們直接透過 JAWS 來獲

得指定詞彙的同義詞集與反義詞集。

Page 20: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

10

第 4 章 研究方法

本章將開始介紹此研究所建置的系統,如圖 4.1 所示,我們將本系統分為三個小

節作介紹,4.1 節介紹如何透過論述句的資訊從維基百科中擷取論述句的相關文

章,以及如何篩選出相關句,4.2 節將介紹透過 4.1 節篩選得到的相關句,計算

每一相關句與論述句的相關度權重,我們將於此節介紹我們計算所使用的方法,

最後 4.3 節則介紹本系統推論系統所使用的方法和特徵。

圖 4.1 系統流程圖

4.1 擷取相關文章及相關句

圖 4.2 是本小節的流程架構圖,將於 4.11 小節介紹我們如何利用論述句得到相

對應的相關文章,並於 4.12 小節介紹,透過 4.11 小節所得到的相關文章得到相

對應的相關句的篩選機制。

維基百科

論述句

相關文章 相關句 推論系統

相關度權重

Yes No

Page 21: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

11

圖 4.2 擷取相關文章及相關句流程

4.1.1擷取相關文章

此流程的主要目標即是將英文論述句的相關文章和相關句從維基百科與一些篩

選機制中挑選出來,所謂的英文論述句即是 3.1 節所介紹的英文語料集,圖 4.3

為英文論述句的範例,因為我們要向維基百科查詢有無相關的文章,因此必須先

從論述句中挑選出有效的關鍵詞彙,作為搜尋維基百科的關鍵詞,我們將此步驟

分為三個部分進行:

Page 22: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

12

<pair label="Y" id="210">

<t2>United Nations member countries must accept and execute the decisions of the

Security Council in accordance with the Charter of the United Nations.</t2>

</pair>

圖 4.3 論述句範例

第一步是取得論述句中名詞組合的近義詞,作為搜尋維基百科的關鍵詞;近

義詞的考慮在一些自然語言處理應用中,已成了不可或缺的重要考量,例如: I

love United States 和 I love America 是描述同一件事情,正因為 United States

與 America 是近義詞都代表著美國,因此增加了近義詞的考慮,可以將維基百

科中許多相關的資訊也一併擷取出來。首先我們先利用 Stanford parser[20]標記出

論述句的詞彙相依性,如圖 4.4,透過詞彙與詞彙的相依關係,我們將表示為「nn」

的名詞組合詞彙擷取出來,並透過 WordNet 將擷取出的名詞組合找出其近義詞

組,如圖 4.5,最後將近義詞組作為我們向維基百科搜尋的關鍵詞。

Page 23: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

13

Example of statement sentence:

United Nations member countries must accept and execute the decisions of the Security Council in accordance with the Charter of the United Nations.

Typed dependencies:

nn(countries-4, United-1), nn(countries-4, Nations-2)

nn(countries-4, member-3), nsubj(accept-6, countries-4)

aux(accept-6, must-5), root(ROOT-0, accept-6)

cc(accept-6, and-7), conj(accept-6, execute-8)

det(decisions-10, the-9), dobj(accept-6, decisions-10)

prep(decisions-10, of-11), det(Council-14, the-12)

nn(Council-14, Security-13), pobj(of-11, Council-14)

prep(Council-14, in-15), pobj(in-15, accordance-16)

prep(accept-6, with-17) , det(Charter-19, the-18)

pobj(with-17, Charter-19), prep(Charter-19, of-20)

det(Nations-23, the-21) , nn(Nations-23, United-22)

pobj(of-20, Nations-23),

圖 4.4 詞彙相依性標記

Example of noun phrase:

Member Country, United Nation, Security Council

Member Country Synonyms : none

United Nation Synonyms : none

Security Council Synonyms : SC

圖 4.5 近義詞範例

Page 24: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

14

第二步是取得論述句中的名詞,作為搜尋維基百科的關鍵詞;其方法與第一個相

去不遠,先使用 StanfordCoreNLP[18]進行詞性標記(Part of Speech)如圖 4.6 所

示,將標記出來為名詞的詞彙擷取出來,透過 WordNet 將擷取出的名詞找出其

近義詞組,最後將近義詞組也作為我們向維基百科搜尋的關鍵詞。

Part of Speech Tagging

United Nations member countries must accept and execute the decisions of the

Security Council in accordance with the Charter of the United Nations.

United/NNP, Nations/NNP, member/NN, countries/NNS

must/MD, accept/VB, and/CC, execute/VB

the/DT, decisions/NNS, of/IN, the/DT

Security/NNP, Council/NNP, in/IN, accordance/NN

with/IN, the/DT, Charter/NNP, of/IN

the/DT, United/NNP, Nations/NNPS, ./.

圖 4.6 詞性標記

第三步是將詞彙中的二字詞、三字詞以及四字詞擷取出來亦作為搜尋維基百科的

關鍵詞,因為瀏覽過蒐集的關鍵詞後發現,Stanford tools 並沒有把一些人名或歷

史事件作為名詞片語,因此為了避免一些重要文章被忽略,我們將此步驟也納入

關鍵詞的搜尋中如圖 4.7 所示。

Page 25: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

15

Unigram to 4-gram

United Nations member countries must accept and execute the decisions of the

Security Council in accordance with the Charter of the United Nations.

Unigram:

United, Nations, member, countries, must, accept, and, execute, the, decisions, of,

the, Security, Council, in, accordance, with, the, Charter, of, the, United, Nations

Bigram:

United Nations, Nations member, member countries, countries must, must accept,

accept and, and execute, execute the, the decisions, decisions of, of the, the

Security, Security Council, Council in, in accordance, accordance with, with the,

the Charter, Charter of, of the, the United, United Nations

Trigram:

United Nations member, Nations member countries, member countries must,

countries must accept, must accept and, accept and execute, and execute the,

execute the decisions, the decisions of, decisions of the, of the Security, the

Security Council, Security Council in, Council in accordance, in accordance with,

accordance with the, with the Charter, the Charter of, Charter of the, of the United,

the United Nations

4-gram:

United Nations member countries, Nations member countries must, member

countries must accept, countries must accept and, must accept and execute, accept

and execute the, and execute the decisions, execute the decisions of, the decisions

of the, decisions of the Security, of the Security Council, the Security Council in,

Security Council in accordance, Council in accordance with, in accordance with

the, accordance with the Charter, with the Charter of, the Charter of the, Charter of

the United, of the United Nations

圖 4.7 連續詞彙範例

Page 26: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

16

我們將三個步驟所擷取的詞彙,整合再一起,一併視為我們向維基百科搜尋

的關鍵詞彙;英語維基百科以超過 450 萬篇條目在數量上排名第一,以圖 4.8 所

示,我們將關鍵詞跟英文維基百科的條目作比對,若吻合該條目,則將該條目所

隸屬的文章擷取出來,並視為論述句的相關文章。

將上述所得詞彙皆視為向維基百科搜尋的關鍵詞彙(key words)

將 URL 中維基百科的文章擷取出來 http://en.wikipedia.org/wiki/key words

圖 4.8 關鍵詞擷取維基百科文章

擷取出的相關文章會有以下三種可能:

1. 有吻合條目,為正常文章內容。

2. 有吻合條目,但為相關文章導引,無實質內容。

3. 找無相符條目,為空文章。

在這三種可能中,我們只保留第一種情況,因此我們利用 total commander[24] 檔

案管理程式,將無實質內容以及空文章的檔案先行過濾,最後留下來的文章及為

相關文章,據統計平均一論述句經過濾後可搜尋到 5.66 篇文章。

4.1.2擷取相關文章

透過 4.1.1 節擷取每個論述句的相關文章後,開始要對文章作一些基本的前處

理,我們將文章中不必要的 XML 標籤以及參照去除掉,並透過 StanfordCoreNLP

將文章篇幅斷句,即文章的每個段落依據其標點符號將之斷成一個個的句子如圖

Page 27: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

17

4.9 所示,就成了文章句,之後將每一個文章句使用 StanfordCoreNLP 進行詞性

標記(Part of Speech)得到每個句子中詞彙的詞性。我們從文章句中篩選相關句的

機制是將所有文章句中,與相對應的論述句作比對,其中將比對相符的詞彙且標

記為「名詞」或「形容詞」詞彙數量作計算,當其數量大於或等於 2 時,即可成

為論述句的相關句,採用「名詞」或「形容詞」作為篩選的機制,主因是主詞或

形容詞在歷史、文化、政治和經濟中,常出現許多專有名詞及特定形容詞,因此

如果有文章句與論述句的名詞或形容詞相同時,相較於其他詞性,兩句子會有更

高的相似度,因此透過此方法作為篩選機制。

Paragraph:

In relation, the Sun is personified as a goddess in Germanic paganism, Sól/Sunna.

Scholars theorize that the Sun, as a Germanic goddess, may represent an extension of

an earlier Proto-Indo-European sun deity due to Indo-European linguistic connections

between Old Norse Sól, Sanskrit Surya, Gaulish Sulis, Lithuanian Saulė, and Slavic

Solntse.

Sentence1:

In relation, the Sun is personified as a goddess in Germanic paganism, Sól/Sunna.

Sentence2:

Scholars theorize that the Sun, as a Germanic goddess, may represent an extension of

an earlier Proto-Indo-European sun deity due to Indo-European linguistic connections

between Old Norse Sól, Sanskrit Surya, Gaulish Sulis, Lithuanian Saulė, and Slavic

Solntse.

圖 4.9 文章斷句範例

Page 28: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

18

4.2 相關度計算

透過 4.1 節,我們從維基百科中擷取出了與論述句相關的文章,並從相關文章中

篩選出了相關句後,本小節要開始介紹一些方式取得每個相關句與論述句的相

圖 4.10 相關度計算流程

關度加權,在 4.2.1 中我們介紹透過五個語文特徵計算出相關句權重,4.2.2 節中

介紹以相關句文章的出處作為考量,計算該文章的相關度權重,最後 4.2.3 節我

們將介紹兩權重合併,以作為相關句的綜合權重。

Page 29: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

19

4.2.1相關句權重

在本小節中,我們藉由相關句與論述句的比較,記算出五個語文特徵,此五個特

徵所擷取的語文資訊皆為詞彙或字串的表面相似度,也就是說當兩個句子表面相

似度越高時,特徵值則會越高,我們利用這些特徵值計算出相關句的相似度權

重,下面我們將開始介紹本系統所建置的特徵。

1. 詞彙覆蓋率(Word Overlap Ratio)

詞彙覆蓋率即為比對兩字串的相同詞彙,當相同的詞彙越多時也代表兩字串所擁

有的共同語文資訊越多,因此我們計算論述句與其相關句之間的詞彙覆蓋率作為

我們計算相似度的重要特徵,如公式[1]所示,以下論述句與相關句為例,我們

即可得到該句對的詞彙覆蓋率為 0.818。

論述句: South America's Amazon River is the largest river in the world.

相關句: The largest river in Brazil and one of the longest in the world is the Amazon

River.

Word Overlap Ratio = Word Overlap NumberWord Number Of Query statement

(1)

2. 最長共同字串相似度(Longest Common String Similarity(LCSS))

最長共同字串[12]是在搜尋兩個字串之間相同子字串,生活上有很多問題都跟搜

尋最長共同子字串的問題相類似,舉例來說,像是自然語言處理、語音辨識或是

尋找相似 DNA 等領域,就都可以利用找出最長共同子字串的演算法來協助處理

問題。因此我們也將句對中共同出現的最長字串視為一個重要的語文特徵,特徵

Page 30: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

20

值計算方式則如下敘述所示,假設句有 8 個詞彙(A B C D E F G H),文本有 11

個詞彙(A B I J D E F K L M N),則兩句子最長的共同字串有 5 個詞彙(ABDEF),

套用公式[2]則會得到 LCSS 值為 0.625。

LCSS = LCSLength of Query Statement

(2)

3. 實體名詞覆蓋(Named Entity Overlap Ratio)

實體名詞標記[14]是自然語言處理中的一項任務,也跟資訊檢索中的資訊擷取議

題有關。在文件中,常有人名、地名、機構名等詞彙出現,以及關於時間、金錢

等不同格式數據的表達,這些詞彙經常不會出現在既有的詞庫中,因此需要特別

的標記,以便擷取及應用。

我們利用 Stanford NER[19] 標記論述句和相關句的實體名詞,Stanford NER

採用的是 "english.all.3class.distsim.crf.ser.gz" 來進行分類,可將句子中的人名、

組織名、地名(PERSON, ORGANIZATION, LOCATION)標記出來,我們透過公式

[3]來進行實體名詞覆蓋的計算。

而文章句與論述句相同的實體名詞數量並不重複計算,亦就是當文章句出現

兩個實體名詞與論述句某個實體名詞相同時只會計算一次,因此該實體名詞覆蓋

率最高為 1。

Named Entity Overlap Ratio = Named Entity OverlapNamed Entity Number Of Query statement

(3)

Page 31: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

21

4. Bilingual Evaluation Understudy(BLEU)

BLEU[2]是用來評估機器翻譯效果的一種演算法,其主要應用,在兩個不同語言

上的翻譯,比對其句對的相似度作為效能評估的依據,而其方法為計算翻譯句對

的連續共同字串(n-gram)數量,所謂的連續共同字串如圖 4.11 所示,我們可以找

出,連續共同字串中為 2 (bigram) 的有兩個分別是「on the」和「the mat」,而連

續共同字串中為 3 (trigram) 的有一個為「on the mat」,因此,我們依據其演算法,

當兩句對得到越多的連續共同字串時,BLEU 的分數也會越高,我們將此方法也

套用在比對相關句與論述句上,也作為相關句與論述句相似度的一項特徵。

圖 4.11 BLEU 句對範例

5. 結構樹相似度(Similarity between Parse Trees)

結構樹亦表示句子的句法結構,如果兩句子的句法結構相當類似,也代表著,它

們有一定的相似程度和相同的語文資訊,我們透過 Stanford Parser 將相關句與論

述句的剖析樹都擷取出來,並透過三個步驟進行剖析樹相似度的計算。

第一個步驟是將 Stanford Parser 計算出來的結構樹,利用變形 Depth-first

Search 從樹狀結構轉為字串結構,如圖 4.12 所示,而變形 DFS 其方法定義如同

正常的 DFS 雷同,以先深後廣的方式,從圖形的某一節點開始走訪,被拜訪過

的節點就會被標示已拜訪的記號。接著走訪此一節點的所有相鄰並且未拜訪過的

節點中的任意一個頂點,並標示已拜訪的記號,再以該點為新的起點繼續進行先

Reference 1: The cat is on the mat

Reference 2: There is a cat on the mat

Page 32: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

22

深後廣的搜尋,但較為不同的是,一般的 DFS 若有一頂點其相鄰的節點皆被拜

訪過時,就退回到最近曾拜訪過之節點,繼續執行深度優先搜尋,而變形的 DFS

則採用當相鄰的節點皆被拜訪過時則退回到最近曾拜訪過且仍有路可走的節點。

採用變形 DFS 的原因是,如果採用正統 DFS 方法,有些回頭路會導致某些

內部節點出現太多次,且相同重要的內部節點也有可能會出現次數不同造成不公

平的情形產生,例如以圖 4.12 為例,b、c 皆為內部節點,深度相同、分支數也

相同,但 b 卻被走了 3 次,而 c 只有 2 次,所以從此例子採用變形的 DFS 能解

決這種問題。

圖 4.12 結構樹範例

第二個步驟我們將相關句與文章句透過變形 DFS 所得到的字串,再比對兩

字串計算出其 LCS,該 LCS 即作為相關句的代表,所謂的代表就是從相關句字

串中,盡可能地提取出與論述句共同的字串結構。

為什麼不將兩 DFS 字串直接進行相似度的比對,是因為相關句出自於維基

Page 33: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

23

百科的文章,而文章中的句子本來就有長有短;短的句子如果與相關句的結構十

分雷同,那在結構樹上應該會與論述句有很大的相似度,但如果是較長的句子,

即便長句的內部有著跟論述句相同的資訊,但因為句子過長,結構樹肯定會跟論

述句有很大的差別,就因為有了上述的問題,所以在計算剖析樹的相似度時,就

不是單單是論述句與文章句的結構樹互相比較而得到結果,透過這樣的方法,即

便相關句很長,只要裡面有與論述句相關的內文,我們就能利用那些相同之處,

來與論述句的結構樹作相似度的計算。

第三步我們將前一步所得到的 LCS 字串與相關句的 DFS 字串,進行比對,

利用 insert operation 的方法將 LCS 字串中缺少的字元補上,使得該字串與相關句

的 DFS 相同,所謂 insert operation,即為將兩字串作比對,如果出現一字串有,

而另一字串沒有的字元,則將之補入(insert),並將所有補上(insert)的花費代價視

為兩字串的距離,如圖 4.14 所示,換句話說,就是相關句與論述句的相關程度,

最後我們將得到的數值正規化,如下頁公式[4]所示,即完成此特徵的計算流程。

圖 4.13 結構樹比較

Page 34: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

24

(1)論述句 DFS={a, b, a, g, c, f, c, h}

(2)相關句 DFS={a, b, d, b, e, a, c, g, c, h, c, i}

(3)論述句與相關句 LCS={a, b, a, g, c, h}

(4)Insert Operation={c, f}

圖 4.14 相關度計算範例

Similarity between Parse Trees = 10−�|Insert Operation|10

(4)

而公式[4]中,我們採用 10 扣除 Insert Operation 開根號,再除以十的原因是,如

圖 4.15 所示,開根號的曲線圖中,y 值增加的幅度會隨著 x 值的增加而趨緩,

而在比對相似度中,假設論述句與四個相關句間(A、B、C、D),其 A 和 B 的

Insert Operation差距為 5 和 10,而 C、D 的Insert Operation差距為 75 和 80,則

論相似度我們應該給予,A 和 B 有較大的差距,而 C 和 D 則有較小的差距,因

為 A 和 B 基本上已經與論述句有一定的相似度(Insert Operation 小),因此些微

的不同則會產生句上很大的變化,而 C 和 D 與論述句的相似度不大

(Insert Operation 大),因此即使是些微的不同則不太影響相似度的改變,而分子

以 10 扣除 Insert Operation 開根號的原因是,據統計,目前實驗的所有論述句及

相關句之間的 Insert Operation 皆不大於 100,因此可利用此特性,將

Similarity between Parse Trees 特徵值控制於 0 到 1 之間。

Page 35: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

25

圖 4.15 開根號曲線圖

4.2.2文章權重

除了相關句與論述句的相關程度外,相關句出自於哪篇文章也是一個需要考量的

地方,若某相關文章中,出現大量的相關句,那也就表示該篇文章與論述句有很

大的關聯性,因此,文章中若出現較多的相關句,我們也應該要給予那些相關句

較高的相似權重,我們計算的方式是將一論述句中的相關句數量作為分母,而每

篇相關文章的相關句數量作為分子,如公式[5]所示,因為是加成的關係,我們

將相關文章的相關句數量除以論述句中的相關句數量,再加上 1,如此一來,則

可以得到文章的相關性權重。

文章權重 = 1 + 相關文章的相關句數量

論述句中的相關句數量 (5)

Page 36: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

26

例如我們有一論述句擷取出 5 篇文章,A、B、C、D、E,而此五篇文章所擁有

的相關句句數為 6、4、10、5、5,則我們就可以計算出此五篇文章的相似度權

重依序為,1.2、1.134、1.334、1.1667、1.1667。

4.2.3相關句綜合權重

在前兩小節中,我們透過前述的計算,得到了相關句的相似度權重,與相關文章

的相似度權重,在本小節中我們將兩權重值合併計算,成為最後的綜合權重,因

此每個相關句的相似度權重都考慮了兩個方向,第一個就是相關句與論述句的相

似度,第二個則是依據相關句出處文章的相關性給予該相關句一個文章權重,公

式[6]即為我們最後計算相關句綜合權重的方法,便將該值作為下一小節推論判

斷時每個相關句的加乘權重分數。

相關句綜合權重= 相關句的相似度權重 × 文章的相關性權重 (6)

4.3 推論驗證系統

本小節開始介紹如何透過 Linearly Weighted Functions (LWFs)推論出論述句的真

實性,在 4.3.1 中我們介紹透過六個語文特徵組成 LWFs 公式,並於 4.3.2 節中介

紹 LWFs 公式的組成以及各相特徵參數訓練方法。

Page 37: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

27

圖 4.16 推論判斷流程

4.3.1語文特徵介紹

為了建構 Linearly Weighted Functions (LWFs) 模組,藉由相關句與論述句的關

係,我們提出了以下六個語文特徵,而此六個語文特徵開始針對文字的語意層

面,透過分析句子的語意層面,希望能更有效的幫助推論。

Page 38: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

28

1. 否定詞、反義詞、否定副詞正反面判斷

兩個句子即使擁有高比例的詞彙覆蓋和實體名稱,但常因為句對間存在了否定

詞,而使句意大為改變;在英文中我們視「no」、「not」為否定詞,利用否定詞

設計一個判斷方法如公式[7],我們先透過 Stanford Parser 將論述句與相關句的詞

彙相依性(typed dependencies)擷取出來,比對其詞彙與標籤,若句對中存在著相

同的詞彙且任一詞彙的標籤標為「neg」,則我們將之視為反向,代表句對的涵義

具有反向的關係給予 Polarity 特徵值-1,反之若找不到相同的詞彙且亦無法找到

任一詞彙標籤標為「neg」,則代表句對的涵義具有正向的關係給予 Polarity 特徵

值 1。

PAD = Polarity * Antonyms (7)

在沒有否定詞的情況下,當論述句和文章句有反義詞的出現時,也會使句義

大相逕庭,因此我們透過 WordNet 擷取句對中每一個詞彙的反義詞與近義詞,

並比對句對間是否有出現與另一句的詞彙相同的反義詞,若存在的話我們給予

Antonyms Detection 特徵值-1,反之我們給予 Antonyms Detection 特徵值 1。

當句子中同時出現否定詞和反義詞時,會有負負得正的效果,例如「not accept」

和「refuse」分別出現在兩句子中時,「not」會被系統判定為否定詞「accept」會

被判定為「refuse」的反義詞,因此如果照特徵 Polarity 和 Antonyms Detection 的

計算方式,則被扣了兩次分數,也就是說此二特徵對於句對的文字蘊含持反對意

見,但殊不知「not accept」和「refuse」在意義上是相同的,因此為了避免此情

Page 39: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

29

況發生,我們透過詞彙間的相依關係,當我們發現否定詞修飾的對象正好為反義

詞時,系統則將計算出的 Polarity 和 Antonyms 特徵值相乘作為我們的新特徵

PAD,則可部分有效地解決負負得正的情況發生。

而上述所討論到的否定詞與反義詞,透過分析詞彙相依關係,我們可以知道

否定詞修飾的對象為何,因此套用 PAD 公式的前提是,Polarity 修飾的對象必須

是近義詞或反義詞才能進行計算,也就是說,假如句對中有否定詞與反義詞,但

否定詞並非修飾相同的對象則不可納入公式計算。

以圖 4.17 來說,A 句: I do not like it,從詞彙相依的「neg」標籤可以得知,

否定詞"not"是修飾"like" --> neg(like-4, not-3),因此在判斷 A 句: I do not like it

和 B 句 : I like it,我們可以知道 like 這個動詞,一句有否定詞修飾,另一句沒有,

因此可判定為反向關係。

A : I do not like it

B : I like it

圖 4.17 否定詞範例

又以圖 4.18 為例,A 句 : I do not like it、B 句 : I hate it,我們透過 WordNet

和分析詞彙相依性發現,A 句有否定詞 not 修飾 like,而 B 句又出現了 A 句中 like

的反義詞 hate,因此透過公式[7],A 句的 PAD =(-1)*1,會與 B 句的 PAD=1*(-1)

相同。

Page 40: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

30

A: I do not like it

B : I hate it

圖 4.18 反義詞範例

但當出現句中出現否定詞和反義詞,卻沒有修飾關係時,以圖 4.19 為例,則

判斷句對是否有反向就如下策略:

(1)當句對出現反義詞時,且沒有否定詞修飾,則直接給予反向的關係,即便句

中出現其他否定詞。

(2)當句對中,某句有否定詞修飾句對共同出現的動詞,另一句沒有的情況時,

則直接給與反向關係。

上述例子符合(1)有出現反義詞(hates , likes),沒有否定詞修飾之,所以給予反向

關係。

A: He hates computer science

B : He likes computer science not just because of his girl friend

圖 4.19 反義詞與否定詞範例

因此當句對符合(1)或(2)其中一個步驟時,也代表著,句對中的某個陳述互為

反向關係,所以即便其他處(非修飾該處的地方)有正反向的詞彙存在,也不能改

變該反向關係的事實。

而否定副詞(negative adverb)就如一般的副詞相同,主要是用來修飾動詞、 形

容詞、作為強調、比較程度、反向等作用,而以反向作用來說,當加了否定副詞

時,句意會因而產生很大的改變,所以否定副詞對於正反向的判斷是一項相當重

要的語文資訊,以圖 4.20 為參照,(1): I seldom fly to USA. 和 (2): I can barely

Page 41: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

31

walk.,因為句對中出現了否定副詞表中的否定副詞 seldom 和 rarely 的修飾,導

致句意從正向轉為反向;我們考量了前面所述的反義詞與否定詞的公式,並結合

否定副詞的判斷形成下頁公式[8],將於下面簡介實作的方法與範例介紹。

在否定副詞中,我們根據 Lucene [13]所提供的否定副詞表蒐集了圖 4.20 的

否定副詞,並透過該表和詞彙的相依關係去做正反向的判斷依據。以圖 4.21 來

說, I seldom fly to USA. 可透過 Stanford parser 剖析並蒐集到詞彙間的相依關

係。

Time : never, seldom, rarely, unusually, infrequently, uncommonly, irregularly,

sporadically

Space : sparsely, nowhere, narrowly, diffusely, skimpily

Degree : barely, sparely, hardly, insufficiently, inadequately, almost, scarcely,

marginally, insignificantly, merely, meagerly, negligibly, scantily, slightly, weakly,

minimally

圖 4.20 Lucene 否定副詞表

I seldom fly to USA.

nsubj(fly-3, I-1)

advmod(fly-3, seldom-2)

root(ROOT-0, fly-3)

prep(fly-3, to-4)

pobj(to-4, USA-5)

圖 4.21 詞彙相依標記範例一

Page 42: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

32

又透過否定副詞表,我們可以知道否定副詞 seldom 修飾動詞 fly,因此 NegAdverb

會給予反向的關係-1。而 I can barely walk 亦可透過 Stanford parser 剖析並蒐集到

圖 4.22 的詞彙相依關係。

I can barely walk.

nsubj(walk-4, I-1) aux(walk-4, can-2)

advmod(walk-4, barely-3) root(ROOT-0, walk-4)

圖 4.22 詞彙相依標記範例二

透過否定副詞表,我們可以知道否定副詞 barely 修飾動詞 walk,因此 NegAdverb

會給予反向的關係-1。最後我們判斷正反向關係的方法就公式[8]所示。

𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 & 𝑁𝑃𝑁𝑁𝑃𝑃𝑃𝑃 𝑅𝑃𝑅𝑃𝑁𝑅𝑃𝑃𝑃𝑃𝑅 = Polarity ∗ Antonyms ∗ NegAdverb (8)

2. 主詞與受詞覆蓋率(Subject and Object Match Rate)

要推論兩個句子的關聯性,當句對有相同的主詞和直接受詞,代表兩句子有很大

的部分傳遞相同的資訊,因此我們將相關句與論述句是否共同出現相同的主詞和

直接受詞視為一個語文特徵,我們透過 StanfordCoreNLP 先標記論述句與相關句

的主詞和直接受詞,然後相互比對,若兩句子出現相同的主詞或直接受詞時則將

它們記錄下來,如果論述句的主詞和直接受詞都出現在相關句,則給予此特徵值

1,否則給予依據覆蓋的比率給予其特徵值。

Page 43: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

33

主詞與受詞覆蓋率 =相符的主受詞數量

論述句中的主受詞數量

3. 主動與被動判斷(Passive Recognition)

在判別句子的主詞和受詞,會因為句子論述是主動或是被動的關係而受影響所以

判斷句子是主動句或是被動句就顯得十分重要,特別在英文語料使用被動句的情

況也不在少數,因此英文語料對於主被動的判別是需要去做處理的,目前打算處

理主被動的方法是先剖析出句子中詞彙間的相依關係,以圖 4.23 為例,我們可

以看到 S1 和 S2 的主詞與動詞的關係性,一個是主動 nsubj(gave-2, John-1)(S1)

一個是被動 nsubjpass(given-3, Mary-1)(S2)的關係,因此在一句是主動,另一句被

動句的情況下,我們只要讓程式去判斷兩句對的主詞與受詞相同,且順序顛倒即

可確認兩句子為主被動的關係。但一個句子可能會有不只一個主詞或受詞,因此

也可以藉由詞彙相依關係去判別哪個主詞及受詞為一個組合,而不會導致主詞於

不相干的受詞扯上關聯而導致分數計算的錯誤。

S1: John gave the apple to Mary.

可以得到:nsubj(gave-2, John-1) dobj(gave-2, apple-4) pobj(to-5, Mary-6)

S2: Mary was given the apple from John.

可以得到:nsubjpass(given-3, Mary-1) dobj(given-3, apple-5) pobj(from-6, John-7)

圖 4.23 主動與被動句對比較

Page 44: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

34

4. 實體名詞覆蓋率(NER Match Rate)

實體名詞標記是自然語言處理中的一項任務,也跟資訊檢索中的資訊擷取議題有

關。在文件中,常有人名、地名、機構名等詞彙出現,以及關於時間、金錢等不

同格式數據的表達,這些詞彙經常不會出現在既有的詞庫中,因此需要特別的標

記,以便擷取及應用。

我們利用 Stanford NER[19] 標記論述句和相關句的實體名詞,Stanford NER

採用的是 "english.all.3class.distsim.crf.ser.gz" 來進行分類,可將句子中的人名、

組織名、地名(PERSON, ORGANIZATION, LOCATION)標記出來,我們透過公式

[9]來進行實體名詞覆蓋的計算。

而文章句與論述句相同的實體名詞數量並不重複計算,亦就是當文章句出現

兩個實體名詞與論述句某個實體名詞相同時只會計算一次,因此該實體名詞覆蓋

率最高為 1。

Named Entity Overlap Ratio = Named Entity OverlapNamed Entity Number Of Query statement

(9)

5. 數字覆蓋率(Number Match Rate)

數字交集的擷取,在以往的方式中,普遍的方法是比對兩句子中的數字是否有相

符,並計算其數量作為一特徵值,但如下句對所示:

1. There are 8 cats and 9 dogs in Katy's garden.

2. Katy owns 8 dogs and 9 cats.

從上述的句對來看數字的交集數量是 2,理應會給予一個正向的推論分數但如果

Page 45: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

35

仔細看句對的內容會發現,兩句對數字所修飾的對象不同,以數字 8 的修飾對象

為例,第一句的是修飾 cats 而第二句則是修飾 dogs,而在數字 9 中,第一句的

是修飾 dogs 而第二句則是修飾 cats,因此句意變的大為不同,不應再給予正向

的推論分數,因此除了用單純的比對數字外,我們利用 Stanford Parser 的詞彙相

依關係可以找出兩個關係「number」、「num」,如下圖 4.24 及圖 4.25 所示。因

此在下實例中,論述句就可因為尋找到相關句,其數字的修飾對象相同,但數字

本身不同,而使得最終使答案判斷為 Contradiction。

論述句:Awards ceremony is now seen live in more than 150 countries and it started

in 1943.

相關句:As one of the most prominent award ceremonies in the world the Academy

Awards ceremony is televised live in more than 100 countries annually

number: element of compound number

"I have four thousand sheep" => number(thousand, four)

"I lost $ 3.2 billion" => number(billion, 3.2)

圖 4.24 數字標記範例一

num: numeric modier

"Sam ate 3 sheep" => num(sheep, 3)

"Sam spent forty dollars" => num(dollars, 40)

"Sam spent $ 40" => num($, 40)

圖 4.25 數字標記範例二

Page 46: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

36

因此數字有了修飾的對象,擷取該特徵也比較有語文意義。我們將此特徵的擷取

方法設計如公式[10]所示。

Number Match Rate = 論述句與相關句的相同數字總數

論述句數字總數 (10)

6. 詞彙相依相似度(Typed Dependencies Similarity)

我 們 利 用 Stanford Parser 產 生 詞 彙 之 間 相 依 的 關 係 (Stanford Typed

Dependencies)[21],將相依關係中的詞彙做為節點,並視句子中的詞彙關係為一

個有向圖(Directed Graph),轉成矩陣形式。如表 4.1 所示,我們發現在此矩陣內

可以顯示的資訊並不充沛,因為矩陣裡面,所顯示的關係皆為詞彙間的直接關

係,並無法顯示出詞彙間的間接關係,因此在如此稀疏的矩陣中,我們難以找到

相關句與論述句間包含相同關係的詞彙組合,因此我們以相鄰矩陣(Adjacency

Matrix)的概念做進一步的運算;例如一個矩陣 M,可以經由矩陣相乘獲得節點

到節點之間移動所需要的步數,因此計算 M2 便能瞭解任一個節點經過二步移動

後的位置。我們將這樣的移動視為依賴關係的延伸,便能找出更多間接的詞彙依

賴關係,並且將不同移動步數的矩陣結果取聯集,獲得更豐富的依賴關係。

Page 47: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

37

表 4.1 詞彙相依關係有向圖 M1

My dog also like eating sausage ROOT

My 0 0 0 0 0 0 0

dog 1 0 0 0 0 0 0

also 0 0 0 0 0 0 0

like 0 1 1 0 1 0 0

eating 0 0 0 0 0 1 0

sausage 0 0 0 0 0 0 0

ROOT 0 0 0 1 0 0 0

表 4.2 詞彙相依關係有向圖 M2

My dog also like eating sausage ROOT

My 0 0 0 0 0 0 0

dog 0 0 0 0 0 0 0

also 0 0 0 0 0 0 0

like 0 0 0 0 0 1 0

eating 0 0 0 0 0 0 0

sausage 0 0 0 0 0 0 0

ROOT 0 1 1 0 0 1 0

Page 48: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

38

表 4.3 詞彙相依關係有向圖 M1∪M2

My dog also like eating sausage ROOT

My 0 0 0 0 0 0 0

dog 1 0 0 0 0 0 0

also 0 0 0 0 0 0 0

like 0 1 1 0 1 1 0

eating 0 0 0 0 0 1 0

sausage 0 0 0 0 0 0 0

ROOT 0 1 1 1 0 1 0

表 4.4 詞彙相依關係有向圖 M1∪M2 與橋梁詞彙

My dog also like eating sausage ROOT

My 0 0 0 0 0 0 0

dog 1 0 0 0 0 0 0

also 0 0 0 0 0 0 0

like 0 1 1 0 1 1(eating,1) 0

eating 0 0 0 0 0 1 0

sausage 0 0 0 0 0 0 0

ROOT 0 1(like,1) 1(like,1) 1 0 1(like,1) 0

Page 49: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

39

但在上述的計算,只考慮了詞彙間的「直接」和「間接」關係。當距離越遠

的間接詞彙所得的分數則越低,反之越高。這樣的做法沒有考慮到詞彙間「連續」

的關係,也就是說兩詞彙間即便是很遠的關係,但如果中間聯繫的詞彙相同,那

整體來說的分數應該給得更高,以下例子來說:

A 句: 美國熱愛和平 假設詞彙相依為->[美國,熱愛],[熱愛,和平], 因此可得到間

接的詞彙相依->[美國,和平 ] 。

B 句: 美國討厭和平 假設詞彙相依為->[美國,討厭],[討厭,和平], 因此可得到間

接的詞彙相依->[美國,和平 ] 。

在 A 和 B 兩句中[美國]和[和平]的橋梁是不一樣的,A 是[熱愛],B 是卻[討厭],

所以在比對的過程中,如果發現句對中有一組共同間接的詞彙相依,則我們會再

審視它們連結的橋梁[詞彙]是否相同,若有相同的橋梁則我們給予相對高的分

數,而橋樑數則決定權重要給的多高,如表 4.4,括號裡面代表著間接關係中,

橋梁詞彙為何,以及橋樑數為多少。

4.3.2LWFs 公式與參數訓練方法

Linearly Weighted Functions (LWFs) 是一種廣受使用且基本的機器學習方法,我

們透過 4.3 小節建構了許多的語文特徵,用以判別出論述句的真實與否,但在實

際上,每一個特徵根據不同的語料,都會有各別的重要性,也就是說,當某些特

徵特別有助於判別答案時,我們就應該給予該特徵較高的權重分數,因此我們建

立的 LWFs 模組,藉由每句論述句的正確答案(Yes or NO),依據整體的準確率來

調整每一個特徵的權重分數。

如公式[11]所示,我們將 4.2 小節透過文章權重𝑤𝐴1與相關句權重𝑤𝑆1所組合

而成的綜合權重,也作為每一個相關句的加權分數,假設一個論述句中有三十個

Page 50: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

40

相關句,則三十個相關句都會有各別與論述句所擷取的特徵,F1 為否定詞、反

義詞、否定副詞正反面判斷,F2 為主詞與受詞覆蓋率,F3 為主動與被動判斷,

F4 為實體名詞覆蓋率,F5 為數字覆蓋率,最後 F6 為詞彙相依相似度;而α、 β、

γ、δ、ε、θ則分別代表上面六個特徵的權重參數。

LWFs Score = (11)

𝑤𝑆1*𝑤𝐴1(α 𝐹1𝑆1 + β 𝐹2𝑆1 + γ𝐹3𝑆1 + δ𝐹4𝑆1 + ε𝐹5𝑆1 + 𝜃𝐹6𝑆1)+

𝑤𝑆2*𝑤𝐴2(α 𝐹1𝑆2 + β 𝐹2𝑆2 + γ𝐹3𝑆2 + δ𝐹4𝑆2 + ε𝐹5𝑆2 + 𝜃𝐹6𝑆2)+

𝑤𝑆30*𝑤𝐴30 (α 𝐹1𝑆30 + β 𝐹2𝑆30 + γ𝐹3𝑆30 + δ𝐹4𝑆30 + ε𝐹5𝑆30 + 𝜃𝐹6𝑆30)

而我們訓練各項特徵參數的方法是採用 exhaustive search 方式,中文稱做 「窮舉

搜尋法」。窮舉搜尋法其中旨是嘗試列舉全部情形、全部數據,一一比對檢查,

其特色是充分利用了電腦能做快速運算的特性,使所有情況無一遺漏,因此很多

不容易計算出答案或最佳解,都可以用迴圈、遞迴等方式做窮舉,而快速的找出

正確答案。但因為採用窮舉的方法相當耗時,因此我們基於窮舉法,採用 grid

search[5]的原理進行最佳解的搜尋,grid search 將可行解透過網格的搜尋法,依

序檢查每組特徵參數對於效能的變化,當找到目前最佳解時,我們可再縮小搜尋

的範圍,從幾個最佳解範圍中再繼續搜索有無更好的結果,重覆計算幾次後,我

們便可得的近最佳的參數組合。

因此我們 LWFs 訓練權重的方法,採用 grid search 的原理,先透過一定的區

間大小調整六個特徵的參數值(α、 β、 γ、δ、ε、θ),在調整的過程中,我們

將較高準確度的參數組合記錄下來,並針對紀錄下來的參數組合,縮小檢驗參數

Page 51: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

41

的區間大小,從較佳的參數組合區間中,比對是否有更好的準確率,並反覆的執

行上述步驟,如此一來可以節省許多運算時間,並找到最近的最佳解的答案。

Page 52: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

42

第 5 章 系統效能評估

5.1 Linearly Weighted Functions 參數及門檻值介紹

我們透過 4.3 小節的方法,開始訓練各個特徵的參數(α、 β、 γ、δ、ε、θ)和

Linearly Weighted Functions 的門檻值(threshold)。首先,我們的訓練語料來源是

由 NTCIR 單位所提供,包含了 RITE-2 和 RITE-VAL 的英文語料,總共有 362

道論述句,其語料領域包含了政治經濟、歷史、文化等等。

我們將各個特徵的參數初值都設定為 1,並以 0.3 為最小基本單位往上和往

下作檢驗,透過窮舉法檢查每一種參數組合所得到的效果,然後我們再透過迴圈

檢驗門檻值(threshold)的大小哪一個為最佳,其門檻值初值為 0,而判斷答案的

依據就根據門檻值作決定,如公式[12]所示;因此我們有六個特徵外加一個門檻

值總計有七個迴圈,我們將效果較好的參數組合儲存下來,並將那些參數組合中,

每個參數值以正負 0.5 為區間,並以最小單位為 0.1 再個別檢驗一遍,最後將數

組最佳解就當作我們的最佳參數組合,透過此方法如圖 5.1 所示,此示意圖即

為尋找各個區域最佳解的方法,透過此方法不斷的檢驗各個區間,我們就可以盡

可能地找到每一個區域的最佳解,並於各組最佳解中尋求更佳的效果。

Page 53: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

43

圖 5.1 區域最佳解

𝑄𝑄𝑃𝑄𝑄 𝑆𝑃𝑁𝑃𝑃𝑆𝑃𝑅𝑃 𝑅𝑃𝑅𝑃𝑁𝑅𝑃𝑃𝑃𝑃𝑅

= �𝑌𝑌𝑆(𝑌𝑅𝑃𝑁𝑃𝐸𝑆𝑃𝑅𝑃) 𝐿𝐿𝐹𝑃 𝑆𝑅𝑃𝑄𝑃 > 𝑃ℎ𝑄𝑃𝑃ℎ𝑃𝐸𝑜𝑁𝑁(𝐶𝑃𝑅𝑃𝑄𝑁𝑜𝑃𝑅𝑃𝑃𝑃𝑅) 𝐿𝐿𝐹𝑃 𝑆𝑅𝑃𝑄𝑃 <= 𝑃ℎ𝑄𝑃𝑃ℎ𝑃𝐸𝑜 (12)

Page 54: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

44

5.2 實驗結果與討論

本小節將開始介紹,效果較佳的參數組合,以及其比較討論,我們在實驗中共選

出了一組原始參數組合以及八組較佳的參數組合作比較與討論,如表 5.1 和表

5.2 所示,在八組參數組合中,準確率大約落在 60%上下,而最好的參數組合是

組合五,其準確率為 63.25%,效果較差的組合為組合二,其準確率為 57.54%,

差了大約 5 個百分點,下列將開始介紹各項參數組中,各項特徵之重要性分析與

探討。

我們從組合一及組合二中看到,主被動判斷特徵和數字覆蓋率兩特徵中,對

於推論判斷是相對於其他特徵來說幫助較大的,分別是 1.6、1.7 和 1.6、1.9,我

們從對照組及組合一和組合二的準確率可以發現,藉由提高主被動判斷特徵,相

關句可能有存在與論述句主被動關係相反的論述,但兩句子所要表達和傳遞的資

訊很有可能是相同的,因此透過該特徵可以將其反向的關係修正,而在數字覆蓋

率中,我們可以猜測出在論述句及相關句中,因為語料的特性,可能存在了許多

的數字資訊,諸如年分、月分、量詞等等,因此在比對其數字資訊上將可提升其

準確度,而門檻中我們觀察到兩個門檻值皆為負數,-1.4 和-3.5,這項資訊代表

所有的分數加總是較偏於負向的總和,也就是說,某些特徵值在分布上可能多分

布於負數,因此在門檻值上,將之調整為負數也較利於答案的判斷;而準確率方

面兩組合個別為 62.70%和 57.54%雖然都是較佳的參數組合,但正確率也差了約

5 個百分點,因為各項參數選定的差距不多,所以我們可以藉此推論出在門檻值

的選定部分,組合二的-3.5 略低,為導致準確率下降的主因。

Page 55: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

45

表 5.1 訓練語料結果一

特徵 原始組

合 組合一 對照組 組合二 對照組 組合三 對照組

正反判斷

特徵

1 1.1 1.1 0.9 0.9 1.8 1.8

主被動判

斷特徵

1 1.6 1.0 1.6 1.6 3.8 1

實體名詞

覆蓋率

1 1.1 1.1 1.1 1.1 1 1

主詞和受

詞覆蓋率

1 1.1 1.1 1.1 1.1 1.9 1.9

數字覆蓋

1 1.7 1.7 1.9 1 1.8 1.8

詞彙相依

性相似度

1 0.8 0.8 0.6 0.6 1.8 1.8

門檻值 0 -1.4 -1.4 -3.5 -3.5 0 0

準確率 53.59% 62.70% 59.11% 57.54% 53.86% 60.49% 58.83%

Page 56: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

46

圖 5.2 訓練語料結果圖一

從參數組合三中看到,當我們將主被動判斷特徵調升至很高的數值時,對於推論

的判斷有很大的幫助,而其他特徵中,正反判斷特徵和主詞和受詞覆蓋率也維持

較高的數值 1.8 和 1.9,在主詞和受詞覆蓋率中我們可以觀察到,因為語料的特

性,在政治、經濟、歷史上,常常會出現一些特殊的人名作為句子的主詞或受詞,

因此如果兩個句子中其主詞或受詞相同的話也意味著,兩句子要描述的主軸相去

不遠,所以較利於推論的判斷,而在門檻值的部分,這裡異於組合一和組合二,

這裡的數值為 0,因此可以藉由推論出,主被動判斷特徵值有可能是分布於正數

的比例較高,因此在拉高參數權重後其總分數也因此被拉高了許多。

00.05

0.10.15

0.20.25

0.30.35

0.40.45

0.50.55

0.60.65

0.70.75

0.80.85

0.90.95

1

原始組合 組合一 組合二 組合三

Training data Results 2

原始組合

組合一

組合二

組合三

Page 57: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

47

表 5.2 訓練語料結果二

特徵 組合五 組合六 組合七 組合八

正反判斷特徵 0.7 0.7 2.1 2.8

主被動判斷特徵 2.4 1.4 1.4 1.8

實體名詞覆蓋率 1.3 1.7 1.4 1.2

主詞和受詞覆蓋率 2.3 2.3 0.6 2.0

數字覆蓋率 1.9 2.0 1.7 1.8

詞彙相依性相似度 1.2 1.2 0.9 0.9

門檻值 -0.7 -0.7 -0.6 0.2

準確率 63.25% 60.77% 59.94% 61.60%

圖 5.3 訓練語料結果圖二

00.05

0.10.15

0.20.25

0.30.35

0.40.45

0.50.55

0.60.65

0.70.75

0.80.85

0.90.95

1

組合五 組合六 組合七 組合八

Training data Results 2

組合五

組合六

組合七

組合八

Page 58: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

48

組合五為本次實驗最佳的準確率組合,其參數中,主被動判斷特徵和主詞和

受詞覆蓋率有著較高的數值 2.4 和 2.3,我們從此部分可以推測,兩特徵參數數

值的提高有著相輔相成的作用,因為除了主詞與受詞的吻合比對外,如果主被動

的關係相反,那對於推論的判斷還是反向的關係,例如 Peter is attracted to Mary

和 Peter attracts Mary 中,兩句子的主詞及受詞皆為 Peter 和 Mary,但在句意上,

因為兩句子一個為主動一個為被動,因此句意上會完全反向,但透過此二特徵,

我們就可以成功的解決這類的問題。而在數字覆蓋率中,組合五也得到了不低的

參數值 1.9,這意味著我們可以在語料中找到許多有關數字的資訊,可能會在歷

史資訊中找到年代資訊,或是在經濟類的論述句中找到幣值或是錢的數量等等,

對於推論判斷將有一定的益助。

在組合六與組合七中可以觀察到,正反判斷特徵和主詞和受詞覆蓋率中,呈

現的是一高一低的情況,組合六為 0.7 和 2.3,組合七則為 2.1 和 0.6,因此我們

可以憶測此二特徵或許有相斥的可能性存在,因為正反向的推論其實影像力是較

大的,也就是說,當句對中某些語文資訊出現了反向的因子,則即便主詞或受詞

都相同則他們的關係也應該是反向的關係,以下為例:Jeter loves playing baseball

和 Jeter hates playing baseball,兩句子中的主詞和受詞都相同,但中間存在了反

向因子 loves 和 hates,因此句意相反,但如果又調高主詞和受詞覆蓋率的參數分

數,則正反判斷特徵的重要性就會因此被拉低,所以這是兩特徵參數值為什麼會

呈現一高一低的可能原因。

在組合八中,我們可以觀察到實體名詞覆蓋率與詞彙相依性相似度的參數值

較低,分別為 1.2 和 0.9,在實體名詞覆蓋率中我們是使用 Stanford NER 進行實

體名詞的標記,但在語料的特性上,出現了很多歷史人物、歷史事件、地名等等,

因為包含的範圍相當廣闊,所以在標記的上面準確率或許並非想像的來得高,可

Page 59: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

49

能會有誤判或是漏標的情況發生,因此在判斷的上面效用就相較得來的低,而詞

彙相依性相似度我們比對了詞彙與詞彙的直接和間接關係,對於句子長度中等或

較少的句子會有較大的幫助,但是在維基百科所截取出的相關句中,很多的句子

長度都是相當的長,常常都會出現七八十字以上的句子,因此就單單在作詞彙相

依性的標記之正確率,可能就會有些差錯,而我們在計算詞彙的間接關係時,可

能因為詞彙間隔了太多層,導致我們無法正確標記出詞彙間的相依性,造成間接

詞彙資訊的遺漏,這也可能是該特徵影響力較低的主要因素。

最後我們選定三組參數組合,作為比賽語料的推論使用,如圖 5.4 和表

5.3 ,我們得到的準確率大約落在 50%左右,而最佳準確率是組合二的 51.06%,

較差的準確率為組合一的 47.87%,我們可以觀察出訓練語料和測試語料的準確

率大約差了 7-10 個百分點,其推測原因主要如下。

第一個原因為語料的特性,訓練語料的主要描述的是各國的歷史、經濟及政

治,含括的範圍相當廣,而比賽語料約有將近一半的部分敘述的是日本當地的歷

史及經濟,因此出現了相當多當時執政者的人名、政策方針、日本年代等等,與

訓練語料的特性較為不同。第二個原因是訓練語料答案的分布不平均,Yes 和

No 的比例約為 65% 比 35%,因此可能會使得訓練出來的參數和門檻值都趨向

於某一邊,導致原以為最好的參數組合結果卻不盡理想。第三則是在反義詞、否

定詞和否定副詞判斷正反面特徵上,在 LWFs 公式中是否該作一些調整,使之權

重變高,或將此特徵提出作為直接判別真實與否的依據,是可能讓效能提升得一

個重要部分,因為此特徵的特性,擁有絕對性的結果,也就是說即便兩句子,擁

有很高的相似度,但在句對中相差了一個否定詞、反義詞或否定副詞,即可讓句

義大為改變,但如果我們將此特徵直接抽出來作為一項重要的判斷指標,則我們

必須根據語料的特性,考量語料中有無這樣的正反向例子出現,如果在整個語料

中僅出現少數的正反向案例,則可能在效能上幫助有限。

Page 60: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

50

我們在初次舉辦的 NTCIR-RITE VAL 子任務中,在三隊參賽者中,拿到第

二名的名次,其中第一名的準確率約落在 54%,這也意味著主辦單位在訓練與測

試語料的提供,可能不盡理想,還有語料的難易度也是一個考量的角度,但或許

透過大量的題目,以及同值性高的訓練語料情況下,我們就有機會將正確率再提

高。

圖 5.4 測試語料結果圖

表 5.3 測試語料結果

特徵 組合一 組合二 組合三

正反判斷特徵 1.1 0.9 1.8

主被動判斷特徵 1.6 1.6 3.8

實體名詞覆蓋率 1.1 1.1 1

主詞和受詞覆蓋率 1.1 1.1 1.9

數字覆蓋率 1.7 1.9 1.8

詞彙相依性相似度 0.8 0.6 1.8

門檻值 -1.4 -3.5 0

準確率 47.87% 51.06% 50.53%

00.050.10.150.20.250.30.350.40.450.50.550.60.650.70.750.80.850.90.951

組合一 組合二 組合三

NTCIR RITE-VAL Test data Results

組合一

組合二

組合三

Page 61: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

51

第 6 章 利用資訊檢索方法採取小規模實驗設計

6.1 方法概述

本章節透過前面所建構的系統外,我們將自行從網路上擷取三十道論述句命題,

並改進前章節擷取相關文章的方法,透過此小規模的實驗,來驗證此系統的改進

效果,並藉由每道論述句所截取的相關句,來討論相關句所截取的結果。

在擷取文章的部分,前面系統所採取的方法是,比對論述句中的各項語文資

訊所截取出的關鍵詞彙與維基百科文章的標題,若關鍵詞彙與標題吻合,則將該

篇文章擷取下來,並視之為其論述句之相關文章,但透過此方法所擷取的文章,

雖可囊括論述句大部分的相關資訊,但還是會有一些漏網之魚,舉例來說,如果

某一論述句在敘述美國總統歐巴馬的生平事蹟,那或許我們也可以從該夫人蜜雪

兒文章中,獲取一些相關資訊,然而,若我們僅單單採用標題作為搜尋的依據,

則很有可能無法擷取出以蜜雪兒為標題的維基百科文章。

因此在擷取文章的部分,我們改良了其方法,透過資訊檢索的方式,將維基

百科的文章詞彙建立索引,並以論述句中的各項語文資訊所截取出的關鍵詞彙,

來與維基百科內文作相關比對,透過 TF-IDF 的統計方法,依據每篇文章中,關

鍵詞彙所出現的次數,來計算相關文章中相關度的排名,並擷取相關度前幾名的

文章,作為每一論述句的相關文章。

在擷取相關句的部分,前面章節所採用的方法,是篩選出文章句中名詞和形

容詞,與論述句相同的數量大於或等於 2 時,則會篩選為該論述句之相關句,透

過此方法,每一論述句所篩選出的相關句數量將會不一致,在此情況下,因為相

關句的數量不同,可能導致不同的語料時,所訓練出來參數值,不一定完全合用

Page 62: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

52

於新的測試資料。

因此在擷取相關句的部分,我們透過計算每一相關文章中的句子,計算每一

文章句之詞彙覆蓋率,透過詞彙覆蓋率的高低,作為篩選相關句的依據,因此我

們可以控制每一個論述句所擁有相關句的數量,透過這樣的方式,便能使訓練出

的參數值,在面對不同語料時,不會有太大的偏差。

最後我們將擷取出來的相關句,透過前述章節所建構的特徵、計算公式與訓

練方法,來依序實作,並藉由最後效能的變化,作為系統改良的驗證依據。

6.2 語料介紹

本小規模實驗,我們已試驗的方式,從英文維基百科中,下載 10 萬篇文章作為

我們搜尋的語料,並透過該 10 萬篇文章所包含的資訊,在網路上各式各樣的相

關網站中自行命題,並將部分的論述句內文作更改,產生三十句論述句,共有十

五句事實句,十五句非事實句,希望透過此小規模的語料量,來作為驗證採用資

訊檢索方式,效能好壞的依據,所蒐集之論述句如下列所示:

N 1. Awards ceremony is now seen live in more than 150 countries and it started in

1943.

Y 2. South America's Amazon River is the largest river in the world

N 3. The Boeing 777 is a large, wide-body airliner with four wing-mounted engines.

Y 4. A video game is an electronic game that involves human interaction on a video

device.

Y 5. U.S. President Barack Obama launched a campaign called Educate to Innovate

on 23 September 2009,.

Y 6. Capitalism is the means of production that largely privately owned and operated

for profit.

Page 63: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

53

N 7. The economic doctrine that held sway between the 15th and 19th centuries.

N 8. The Territory of Christmas Island is a territory of Asia in the Atlantic Ocean.

N 9. The Cuban missile crisis known as the February Crisis.

Y 10.The term Canadian English first appears in a speech by the Reverend A.

Constable Geikie.

N 11.Obama was a Chinese political and military leader

N 12.Sun Yat-sen died on May 27, 1945

N 13.Computer visualization is the scientific approach to computation and its

applications.

Y 14.Cartography is the study and practice of making maps.

Y 15.The Doppler effect is the change in frequency of a wave for an observer moving

relative to its source.

N 16.Bernoulli's principle is named after the Austrian physicist Christian Doppler,

who proposed it in 1842 in Prague.

N 17.Doppler first proposed the effect in 1744 in his treatise

Y 18.Cola is a beverage that contained kola nut and cocaine

N 19. Cola is popular in the early 1970s.

Y 20.Copyleft is a form of licensing and can be used to maintain copyright conditions

for works.

Y 21.Jesus Christ underscored the importance and sacredness of lifelong marriage in

his own teachings.

Y 22.The Doppler effect is proposed in 1842 in Prague.

Y 23.The New Testament teaches that sex is reserved for marriage.

N 24.Attlee was the first person ever to hold the office of Deputy Prime Minister of

the Germany.

Page 64: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

54

Y 25.Capitalism was carried across the world by broader processes of globalization.

N26.in the 17th century, capitalism overcame a challenge by centrally-planned

economies.

Y27.Economic trade for profit has existed since at least the second millennium BC.

N28.America began a large-scale and integrative approach to mercantilism during the

Elizabethan Era.

Y29.In 1965, Joe Sutter was transferred from Boeing's 737 development team to

manage the design studies for a new airliner.

N30.The width of the Amazon is between 3.8 and 9.8 kilometres.

6.3 實驗結果

我們透過 6.1 小節的方法與 6.2 小節的語料於本小節進行實驗,檢驗系統的效果。

在擷取相關文章的部分,每一個論述句我們將擷取出七篇維基百科文章,作為該

論述句的相關文章;在擷取相關句的方面,我們從相關文章中,依據詞彙覆蓋率

的高低排名,擷取前二十名的文章句作為每一論述句的相關句。

實驗結果如表 6.1 所示,準確率落在 66.7%,三十道論述句中,系統答對了

二十道題目,其中推論為 Y 的數量為 11,推論為 N 的數量為 19,而題目的 Y

與 N 數量則皆為 15。在準確率的部分,優於表 6.2 標題搜尋法的 60%,其原因

可能有二,第一個是語料的問題,此小規模實驗採用的語料難易度較適用於現階

段系統的推論判斷,所以在準確率上會有較佳的效果,第二則是系統的改進,在

擷取相關文章的部分,我們透過資訊檢索維基百科內文的方式,取代搜索維基百

科標題的方式,因此能在相關文章擷取的相關度上有所提升。

Page 65: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

55

表 6.1 實驗結果—資訊檢索法

採用資訊檢索方式

題目數量 30 答對數量 20

題目 Y 數量 15 題目 N 數量 15

系統選擇 Y 11 系統選擇 N 19

準確率 66.7%

最後在語料截取的部分,我們透過人工的方式,比對了此三十道論述句所截

取的相關句,透過了解每一論述句需要幾句相關句才可判斷其真偽,來分析截取

相關句的品質依據,如表 6.5 所示,我們將三十道論述句中的五道論述句所截取

的相關句顯示於表格中,從表格中我們可以發現,在截取的相關句,常常可以在

前三名相關句就可得到足夠推論論述句真實性的資訊,但仍有少數的相關句需要

約前十句上下的相關句,才有足以判別真實性的資訊,以表 6.6 為例,該論述句

需要十二句相關句才有足以判別真實性的資訊,不過就整體而論我們所採用的機

制,截取前十五名相關句,已足以含括大部分論述句判別真實性的資訊。

表 6.2 實驗結果-標題搜尋法

採用標題搜尋法

題目數量 30 答對數量 18

題目 Y 數量 15 題目 N 數量 15

系統選擇 Y 13 系統選擇 N 17

準確率 60.0%

Page 66: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

56

表 6.3 相關句分析一

論述句 1 Awards ceremony is now seen live in more than 150 countries and it

started in 1943.

相關句 1 1. As one of the most prominent award ceremonies in the world the

Academy Awards ceremony is televised live in more than 100

countries annually

2. Headquartered in Tulsa Oklahoma the organization encompasses

more than 1 200 registered quartets and 600 choruses

3. The Awards show was first televised in 1953 on NBC which

continued to broadcast the event until 1960 when the American

Broadcasting Company

論述句 2 The Boeing 777 is a large, wide-body airliner with four

wing-mounted engines

相關句 2 1. The Boeing 747 is a large wide-body airliner with four

wing-mounted engines

論述句 3 Sun Yat-sen died on May 27, 1945

相關句 3 1. Sun Yat-sen died on March 12 1925 creating a power vacuum in

the Kuomintang

論述句 4 Cola is popular in the early 1970s.

相關句 4 1. Clear cola is a colorless variety of cola popular in the early 1990s

論述句 5 The Cuban missile crisis known as the February Crisis.

相關句 5 1. The crisis is generally regarded as the moment in which the Cold

War came closest to turning into a Nuclear warfare

2. Arguably the most dangerous moment in the crisis was only

recognized during the Cuban Missile Crisis Havana conference in

October 2002

Page 67: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

57

表 6.4 相關句分析二

論述句 6 South America's Amazon River is the largest river in the world

相關句 6 1. The Casiquiare river is a distributary of the upper Orinoco flowing

southward into the Rio Negro Rio Negro in Venezuela South

America

2. All the largest tributaries including the Shire the outflow of Lake

Nyasa flow down the southern slopes of the band of high ground

stretching across the continent from 10° to 12° S In the southwest

the Zambezi system interlaces with that of the Taukhe River from

which it at times receives surplus water

3. Columbia River The Columbia River is the largest river in the

Pacific Northwest region of North America

4. Water in these places drills its way downward by dissolving the

carbonate rock to form an extensive underground river system

5. The largest city along the Detroit River is Detroit and most of the

population along the river lives in Michigan

6. Its largest tributary is the River Rouge in Michigan which is

actually four times longer than the Detroit River and contains

most of the basin

7. Nch - W a to the Sahaptin language peoples of its middle course

in present-day Washington ; cite book The river is known as swah

netk qhu by the Sinixt people who live in the area of the Arrow

Lake in the river s upper reaches in Canada

8. There are also numerous water dams throughout the continent :

Kariba on the river of Zambezi Asuan in Egypt on the river of

Nile and the biggest dam of the continent lying completely in The

republic of Ghana is called Akosombo on the Volta river

9. By volume the Columbia is the fourth-largest river in the United

Page 68: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

58

表 6.4 相關句分析二(續)

10. States ; it has the greatest flow of any North American river draining into the

Pacific

11. The total volume of water of the Amazon river in a year is about 6 591 cubic

kilometers

12. The largest river system in Brazil is the Amazon which originates in the Andes

and receives tributaries from a basin that covers 45 7 % of the country

principally the north and west

The largest river in Brazil and one of the longest in the world is the Amazon River

Page 69: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

59

第 7 章 結論與未來展望

7.1 結論

本研究的目的是要建構一套推論模型,藉以判斷出任一論述句,其敘述為真實或

與事實違背,我們以線上維基百科為基底,利用論述句的各項語文資訊,擷取維

基百科中與論述句相關的文章,我們採取的方法是,將論述句中的名詞片語與名

詞,從 WordNet 找出其近義詞,除此之外我們也將論述句中的二字詞、三字詞

與四字詞,都作為向維基百科標題搜尋的關鍵詞,如果有找到關鍵詞與維基百科

的文章標題相符,系統則會將該文章內容截取下來。

我們從截取出來的文章中,透過建置一個篩選器將文章中與論述句的相關句

篩選出來,而我們採取的策略是,篩選文章句中名詞或形容詞與論述句相同之數

量大於或等於二的句子截取出來,篩選出的句子我們就視為相關句。

每一個篩選出來的相關句與論述句的相關程度並不一樣,因此我們考量兩個

方面,第一是相關句與論述句的相似程度,第二是相關句的出處文章其代表性,

在第一個部分中,我們建置許多語文特徵透過相關句與論述句的計算,將句對間

表面相似度截取出來,透過一些計算將之視為句子的相關度,第二個部分我們統

計每篇相關文章中的相關句數量,當數量越多時,就代表該文章與相關句的相關

性越高,因此該篇文章所出現的相關句都應該給予較高的加成,最後我們將兩個

面向句子與文章的相關性的加成總合在一起,作為每一個相關句各別的加成權

重。

最後我們透過建置一些語文特徵處理,探討相關句與論述句語意間的相關程

度,如否定詞、反義詞、否定副詞正反面判斷、主詞與受詞覆蓋率、主動與被動

Page 70: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

60

判斷、實體名詞覆蓋率、數字覆蓋率和詞彙相依相似度並藉由 Linearly Weighted

Functions 建構出推論的模型,我們將各項特徵的參數根據準確率的變化調整其

參數值、最後將最佳準確率的組合視為最後的參數組合,在訓練語料中我們獲得

約 60%左右的準確率。

而透過上述的建構我們參加 NTCIR-RITE VAL 子任務,並透過訓練語料中

其中三組較佳的參數組合,作為我們參賽的選擇,在測試語料中我們獲得 51%

的準確率,並於三組參賽者中排於第二,與排名第一的參賽者約差了 3 個百分

點,在效果的部分,結果並不如想像中的好,我們認為導致此結果可能有一因素,

因為我們的推論系統將所有語文特徵都一視同仁去訓練其參數權重,因此在判斷

上,或許某些特徵應給予更絕對性的權重,例如在反義詞、否定詞和否定副詞判

斷正反向的特徵上,透過公式的調整給予更高的權重,或許能對效能上有更好的

效影響,但透過原方式是較為廣泛的方法,相較於調整某特徵其影響性的方式,

理應較能套用在不同語料上;我們期待透過更多的訓練語料,與同質性更高的測

試語料中,能有機會得到更高的準確率。

7.2 未來展望

在篩選相關句的部分,我們透過一個簡易的篩選器,將相關文章中的相關句子也

一併篩選出來,對於此部分的設計,在未來希望能再改良其篩選器之篩選機制,

讓截取出來的相關句與論述句之相似度越高,而特徵方面,我們希望可以在系統

中建構出更多有效的語言特徵,並對於句子的結構層面以及語意層面作更多的研

究,對於效能的部分應該能有效的提升。

在前處理的部分,如標記實體名詞、剖析句法結構、標記詞彙相依性等等,

我們也希望能夠嘗試不同的工具與原本採用的工具相互比較,以提高其正確率,

Page 71: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

61

在分類的部分,除了採用原先的 Linearly Weighted Functions 方法外,未來也可以

嘗試使用其他機器學習的分類方法,例如使用支持向量機器(Support Vector

Machine)[22]、決策樹(Decision Tree)[17]等等的方法,交互比對其優劣,藉以選

擇出最適合此推論系統的分類器。

我們也希望透過此推論系統的技術,未來可以延伸到其他相關的應用,例如

自動問答系統,可實際應用在客服系統的自動化,或者自動答題系統,可幫助在

教學上驗證題目的難易,藉以提升教學的品質,也可在自動摘要上使用推論的技

術,以及某些關於自然語言的相關應用,都可能有直接或間接的幫助。

Page 72: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

62

參考文獻

[1] R. Adams, “Textual Entailment Through Extended Lexical Overlap,”

Proceedings of the Second PASCAL Challenges Workshop on Recognising

Textual Entailment, pp. 128-133, 2006.

[2] BLEU, http://en.wikipedia.org/wiki/BLEU

[3] A. Budanitsky and G. Hirst, Semantic distance in WordNet: An experimental,

application-oriented evaluation of five measures, Workshop on WordNet and

Other Lexical Resources, Second Meeting of the North American Chapter of the

Association for Computational Linguistics, Pittsburgh, Pennsylvania, USA,

2001.

[4] S. Cohen and N. Or, "A general algorithm for subtree similarity-search," Data

Engineering (ICDE), IEEE 30th International Conference. pp. 928-939, 2014.

[5] Grid search, http://scikit-learn.org/stable/modules/grid_search.html

[6] S. Hattori and S. Sato, “Team SKL’s Strategy and Experience in RITE2,”

Proceedings of the 10th NTCIR Conference, pp. 435-442, 2013.

[7] A. Hickl, J. Bensley, J. Williams, K. Roberts, B. Rink, and Y. Shi, “Recognizing

Textual Entailment with LCC’s GROUNDHOG System,” Proceedings of the

Second PASCAL Challenges Workshop on Recognising Textual Entailment, pp.

80-85, 2006.

[8] Heuristic function, http://en.wikipedia.org/wiki/Heuristic_function

Page 73: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

63

[9] W.-J. Huang and C.-L. Liu, “NCCU-MIG at NTCIR-10: Using Lexical,

Syntactic, and Semantic Features for the RITE Tasks,” Proceedings of the 10th

NTCIR Conference, pp. 430-434, 2013.

[10] G. Li, X. Liu, J. Feng, and L. Zhou, “Efficient Similarity Search for

Tree-Structured Data, Author Affiliations: Department of Computer Science and

Technology,” Proceedings of the 20th Scientific and Statistical Database

Management Conference, pp. 131-149, 2008.

[11] Linearly Weighted Functions, http://en.wikipedia.org/wiki/Weight_function

[12] Longest Common Strings,

http://en.wikipedia.org/wiki/Longest_common_substring_problem

[13] Lucene, http://lucene.apache.org/core/

[14] Named Entity Recognition,

http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html

[15] NTCIR RITE-VAL, http://research.nii.ac.jp/ntcir/index-en.html

[16] RTE, http://research.microsoft.com/en-us/groups/nlp/rte.aspx

[17] S. Rasoul and D. Landgrebe, “A Survey of Decision Tree Classifier

Methodology,” IEEE Transactions on Systems, Man, and Cybernetics, Vol. 21,

No. 3, pp 660-674, May 1991.

[18] Stanford Corenlp , http://nlp.stanford.edu/software/corenlp.shtml

[19] Stanford Named Entity Recognizer,

http://www-nlp.stanford.edu/software/CRF-NER.shtml

Page 74: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

64

[20] Stanford Parser, http://nlp.stanford.edu/software/lex-parser.shtml

[21] Stanford Typed Dependencies,

http://nlp.stanford.edu/software/stanford-dependencies.shtml

[22] SVM, http://en.wikipedia.org/wiki/Support_vector_machine

[23] Textual Entailment , http://en.wikipedia.org/wiki/Textual_entailment

[24] Total commander, http://www.ghisler.com/

[25] Wikipedia, http://en.wikipedia.org/wiki/Main_Page

[26] WordNet, http://wordnet.princeton.edu/

[27] S.-H. Wu, S.-S. Yang, L.-P. Chen, H.-S. Chiu, and R.-D. Yang, “CYUT Chinese

Textual Entailment Recognition System for NTCIR-10 RITE-2.” Proceedings of

the 10th NTCIR Conference, pp. 443-448, 2013.

[28] S.-H. Wu, W.-C. Huang, L.-P. Chen, and T. Ku, “Binary-class and Multi-class

Chinese Textural Entailment System Description in NTCIR-9 RITE,”

Proceedings of the 9th NTCIR Conference, pp. 422-426, 2011.

[29] Y. Y. Zhang, J. Xu, C.-L. Liu, X.-L. Wang, R.-F. Xu, Q.-C. Chen, X. Wang, Y.-S.

Hou, and B. Tang, “ICRC_HITSZ at RITE: Leveraging Multiple Classifiers

Voting for Textual Entailment Recognition,” Proceedings of the 9th NTCIR

Conference, pp. 325-329, 2011.

Page 75: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

65

附錄 相關文章與相關句範例

在附錄 I 中,我們以第六章實驗為範本,以第 19 道題目 Cola is popular in the early

1970s.為範例,展示出依據該論述句的語文資訊,所擷取出的相關文章如下所

示,礙於版面有限,僅列出標題及維基百科網址。

維基百科文章: Coca-Cola

網址:http://en.wikipedia.org/wiki/Coca-Cola

維基百科文章: Inca Kola

網址:http://en.wikipedia.org/wiki/Inca_Kola

維基百科文章: Caffeine

網址:http://en.wikipedia.org/wiki/Caffeine

維基百科文章: Cola

網址:http://en.wikipedia.org/wiki/Cola

維基百科文章: Cuba Libre

網址:http://en.wikipedia.org/wiki/Cuba_Libre

在相關句中,我們以第六章實驗為範本,以第 19 道題目 Cola is popular in the early

1970s.為範例,展示出依據該論述句所擷取的相關文章中,透過詞彙覆蓋率的排

名所擷取出的 15 個相關句如下所示:

Page 76: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

66

1. Clear cola is a colorless variety of cola popular in the early 1990s

2. In the early 20th century a fatwa was created in Egypt to discuss the question of

whether Muslims were permitted to drink Coca-Cola and Pepsi cola

3. Trace flavorings may include nutmeg and a wide variety of ingredients but the

base flavorings that most people identify with a cola taste remain vanilla and

cinnamon

4. In the Netherlands the drink is usually served without lime and commonly referred

to as Baco from the two ingredients of Bacardi rum and cola

5. In Mexico it is one of the most popular alcoholic drinks and it is usually referred

to simply as a Cuba

6. Campa Cola was India s most popular brand prior to the introduction of Coca-cola

and Pepsi to the Indian market in 1991

7. A variety of different sweeteners may be added to cola often partly dependent on

local agricultural policy

8. In the Dominican Republic it is a popular drink poured with a generous amount of

locally produced Dominican Rum and cola topped off with a slice of lime

9. Jarritos Cola is a brand of cola from Mexico while popular and native to Mexico it

is widely distributed mainly to Latino citizens of the United States

10. Many of these early television commercials for Coca-Cola featured movie stars

sports heroes and popular singers

11. Zam Zam Cola popular in Iran and parts of the Arab world

12. In Greece Thessaloniki there is another variant that consists of retsina and cola

Page 77: 國立政治大學資訊科學系 - nccur.lib.nccu.edu.twnccur.lib.nccu.edu.tw/bitstream/140.119/72556/1/028101.pdf · Ã ð O b u j p o b m ! D i f o h d i j ! V o j w f s t j u

‧國

立政 治

學‧

Na

t iona l Chengch i U

niv

ersi t

y

67

named tumba libre

13. Virgin Cola was popular in South Africa and Western Europe in the 1990s but has

waned in availability

14. Coca Cola is also one of the associate sponsor of Delhi Daredevils in Indian

Premier League receding Wikipedia

15. It has tried to maintain the exclusive right to sell products using the Coca-Cola

name and its diminutive form Coke by suggesting the alternative of cola drink as a

generic name for similar types of carbonated soft drinks