80
硕硕硕硕硕硕硕硕硕 题题题题题题题题题题题 题题 1001213633 题题题题题题题题 题题题题题题题题 题题题题 题题题题题题题题题题题

sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

  • Upload
    others

  • View
    36

  • Download
    0

Embed Size (px)

Citation preview

Page 1: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

硕士研究生学位论文

题目:基于翻译模型的引文推荐

姓 名: 陆炀 学 号: 1001213633 院 系: 信息科学技术学院 专 业: 计算机科学与技术 研究方向: 搜索引擎与网络信息挖掘 指导教师: 闫宏飞 副教授

Page 2: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

二零一三年六月

Page 3: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

基于翻译模型的引文推荐陆炀 (计算机科学与技术)

指导教师:闫宏飞副教授

摘要引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文

献供作者和读者参考,无疑这对于文字工作者而言非常有用。引文推荐问题可

以被转化为一个信息检索问题,其中查询语句就是文献中的文字片段,相关文

档即是被引用的文档。在实际中,这些文字片段和被引用的文档往往使用了不

同的词汇术语,这导致了直接检索的困难。而翻译模型在信息检索中恰好可以

很好的将查询语句与目标文档之间的词汇联系起来。本文在经典信息检索模型语言模型中,加入了表征词与词之间联系的翻译

模型,以此来解决引文与目标文档使用词汇不尽相同的这一问题。针对翻译模

型的训练,我们需要一个较大的查询语句与相关文档对的集合,这里我们假设

查询语句和对应的相关文档是平行的。在此基础上本文提出了两种翻译模型的

训练方法:

I

Page 4: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

1) 全局翻译模型2) 位置对齐翻译模型在本文的实验部分,详细比较了不同的参数对实验结果的影响,其中包含

不同的平行语料构建方法、翻译保留词汇量、语言模型与翻译模型的权重参数

等。与传统的方法相比,本文通过翻译模型可以找到更好的备选引文,效果提

升明显。

关键词:信息检索,引文推荐,翻译模型,EM 算法

II

Page 5: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

Recommending Citations with Translation Model

Yang Lu (Computer Science)Directed by Professor Hongfei Yan

AbstractThe goal of a citation recommendation system is to suggest some references for a

snippet in an article or a book, and this is very useful for both authors and the readers.

Citation Recommendation problem can be cast as an information retrieval problem, in

which the query is the snippet from an article, and the relevant documents are the

cited articles. In reality, the citation snippet and the cited articles may be described in

different terms, and it leads difficulty in the retrieval. Translation Model is very useful

in bridging the vocabulary gap between queries and documents in information

retrieval.

Through adding translation model which represents the relation between different

words into the classic information retrieval model: language model, the gap between

two heterogenous languages can be bridged. The translation model can be trained with

a set of query and document pairs, which are assumed to be parallel. Based on that,

we propose two methods to train the translation model:

1) Global Translation Model

2) Position-aligned Translation Model

In the experiment part of this paper, through a series of experiments, such as

different sources for building the parallel corpus, the preserved number of words in

translation model, the weight parameters of language model and translation model, we

found out that, compared with classic methods, translation model can find out much

better candidates of citation. The effect boosted is obvious.

Keywords: Information Retrieval, Citation Recommendation, Translation Model, EM

algorithm

III

Page 6: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

目录第 1 章 引言...........................................................................................................1

1.1 研究背景........................................................................................................2

1.2 研究内容........................................................................................................3

1.2.1 翻译模型的训练.....................................................................................3

1.2.2 翻译模型与语言模型的整合..................................................................6

1.3 论文组织结构................................................................................................6

第 2 章 相关工作...................................................................................................8

2.1 最新进展........................................................................................................8

2.1.1 引文推荐.................................................................................................8

2.1.2 翻译模型.................................................................................................9

2.2 语言模型......................................................................................................10

3.2.1 一元语言模型.......................................................................................10

3.2.2 查询似然检索模型...............................................................................11

2.3 翻译模型......................................................................................................14

Page 7: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

第 3 章 数据集与实验设置..................................................................................18

3.1 数据收录......................................................................................................18

3.2 数据预处理..................................................................................................20

3.3 问题描述......................................................................................................21

3.4 文档排序......................................................................................................23

3.5 评测方法......................................................................................................24

3.6 显著性检验..................................................................................................25

3.7 实验框架......................................................................................................26

第 4 章 全局翻译模型..........................................................................................28

4.1 模型估计......................................................................................................28

4.2 翻译链截断..................................................................................................30

4.3 实验与结果..................................................................................................32

第 5 章 位置对齐翻译模型..................................................................................36

5.1 模型估计......................................................................................................36

5.1.1 使用 EM 算法估计翻译模型.................................................................37

5.1.2 复杂度分析...........................................................................................39

Page 8: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

5.2 实验方法......................................................................................................40

5.3 实验与结果..................................................................................................41

5.3.1 整体结果...............................................................................................41

5.3.2 平滑参数...............................................................................................41

5.3.3 训练数据集的大小...............................................................................43

第 6 章 总结和未来工作......................................................................................45

6.1 结论..............................................................................................................45

6.2 未来工作......................................................................................................45

参考文献..............................................................................................................47

附录 50

1. 式 2-11 的推导.................................................................................................50

2. EM 算法的推导...............................................................................................51

致 谢 53

Page 9: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图目录图 1-1 数据挖掘论文发表趋势图.........................................................................1

图 1-2 机器学习论文发表趋势图.........................................................................1

图 1-3 信息检索论文发表趋势图.........................................................................1

图 1-4维基百科中的"Citation Needed"标记.......................................................2

图 1-5 "机器学习"的翻译关系.............................................................................4

图 2-1 检索过程..................................................................................................12

图 2-2 查询语句生成、检索模型.......................................................................15

图 2-3式 2-10示意图.........................................................................................17

图 3-1微软学术搜索..........................................................................................18

图 3-2 引文上下文长度的分布..........................................................................19

图 3-3 预处理后数据示意图..............................................................................21

图 3-4 相关术语示意图......................................................................................22

图 3-5 评测方法示意..........................................................................................24

图 3-6 实验整体结构图......................................................................................27

图 5-1 位置对齐翻译模型..................................................................................37

图 5-2 参数 μ调参结果......................................................................................42

Page 10: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图 5-3 参数 β调参结果.......................................................................................42

表目录表 3-1 数据集统计信息......................................................................................19

表 3-2 显著性检验相关数据..............................................................................26

表 4-1 regulariza 的翻译概率..............................................................................31

表 4-2 实验方法列表..........................................................................................32

表 4-3 各种方法实验性能..................................................................................33

表 5-1 位置对齐模型基本实验结果...................................................................41

表 5-2 训练数据集大小对结果的影响...............................................................43

11Equation Section (Next)

Page 11: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

第1章 引言随着科学技术的发展,特别是互联网的兴起,越来越多的人员涉及到学术

论文的写作、投稿、发表之中。大学和各种研究机构本来是学术论文的主要写

作来源,然而现在为了扩展影响力,保证行业领先地位等原因,很多公司也加

入了学术论文的写作大军之中。在互联网没有普及的年代里,人们查阅资料、

撰写论文、学术交流,更多的依靠图书馆和周围的同行业从业者。然而在如今,

互联网将全世界的思想、学术贡献传递到了几乎世界的每一个角落,人们足不

出户就可以浏览别人的学术工作,与同领域的优秀人才进行交流。这其中一个非常有趣也十分重要的问题就是如何为学术论文的作者提供有

力的引文支持,使得当他们希望寻找恰当的引文来支撑其所述观点时,能够得

到快速有效的推荐。在上个世纪 90 年代之前,由于发表的学术论文总量有限,

学者甚至可以浏览本领域的所有文献,然后在其中筛选出最恰当的文献用来作

为自己的引文。然而自从互联网兴起之后,大规模的文献写作浪潮,使学者不

太可能阅读过本领域的其他学者的所有工作。图 1-1 到 1-3 分别展示了微软学术1

Page 12: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

搜索引擎[17]提供的在数据挖掘、机器学习以及信息检索三个领域的学术论文

发表趋势图。

图 1-1数据挖掘论文发表趋势图

图 1-2机器学习论文发表趋势图

图 1-3信息检索论文发表趋势图

从趋势图中我们可以看到,最近 20 年的时间里,人们发表的论文数相比之

前有了很大程度的提高。这无疑为学者掌握本领域内最新进展制造了一些不可

避免的麻烦。对现在的学者而言,几个比较大的学术论文站点一定是他们时常要光顾的

地方。如 google scholar、microsoft academic search、acm portal、elsevier 等,这

些站点中收录了海量的学术文献,并且提供了引用计数,作者追踪等功能。然

2

Page 13: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

而他们都没有覆盖到的一个问题,即为用户推荐引文。在这种大数据的背景之

下,如果能够自动地为学者所写内容提供恰当的引文推荐,相信这会是一个有

意义且具有挑战性的工作。

1.1 研究背景引文推荐问题是指为特定的语句推荐合适的引文的任务。显然引文推荐系

统对于撰写书籍或文章的作者、编纂书稿的编辑等人而言都非常有用。试想,

对于正在撰写的文献内容,如某种确定的方法、某些统计数据或者其他研究者

的结论等,作者经常会忘记是出自那篇文章。如果作者对于这些内容没有给出

明确出处,评审或编辑可能会要求作者添加。图 1-1 展示了在维基百科上,编

辑在一处需要添加引文的位置给出的“citation needed(需要添加引文)”的标

记,这个位置通常被称为引文占位符。如果引文推荐系统能够自动给出一些高

质量的备选文献供相关人员挑选,那么作者、编辑等人的工作将会轻松很多。

3

Page 14: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图 1-4维基百科中的"Citation Needed"标记

一个简单的方法就是将引文附近的若干文字,我们称为引文上下文,作为

查询语句,用信息检索中的方法来搜索目标文献内容。然而这种方法在这种情

况下往往不能收到良好的效果。主要原因在于引文上下文中使用的词汇与文献

中使用的词汇不尽相同,譬如引文上下文中使用了“Graphical Model(图模

型)”这样的字眼,而目标文档是讨论“Hidden Markov Model(隐马尔科夫模

型)”的文献,显然隐马尔科夫模型是图模型的一种,但是这种关系在传统的

基于关键字的信息检索模型中却没有考虑,导致这篇文章无法被成功的推荐给

用户。这种情况在学术领域中表现更甚,我们往往会因为时间的迁移、地域的不

同和个人习惯的差异等原因,发现在不同的场合,我们使用了不同的词汇来指

代相同或相近的概念。4

Page 15: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

1.2 研究内容在信息检索领域,用户在他们的查询语句中使用的词汇往往和文档中的词

汇不尽相同。在推荐系统中也有同样的问题,即被推荐项与推荐上下文(查询

语句)可能是用不同的词汇来表示的。这种现象导致了我们称为词汇异质性或

者词汇不匹配的问题,这个问题在信息检索和推荐系统中非常突出。有人已经通过在文档集合中挖掘词汇之间的关系,试图解决这个问题

[11,29]。我们可以用挖掘到的词汇关系对查询语句进行查询扩展,添加一些相

关的词汇后再进行检索。尽管对于词汇关系的挖掘而言文档集合是一个宝贵的

资源,但是这种方法只能够得到文档中的词汇之间的关系。然而,查询语句中

使用的词汇和文档中使用的词汇很大程度上是不一样的,这使得这种方法的能

力受到限制。本文将通过在引文上下文和文献之间构建平行语料对的方法训练翻译模型,

并将翻译模型整合到经典的语言模型之中进行检索。主要研究内容包括:

5

Page 16: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

1.2.1 翻译模型的训练翻译模型的本质是一个词到另一个词的概率分布,这里的翻译不能按狭义

的翻译理解,而应该理解为两个词之间的一种关联程度。这个概率越高代表两

个词的关系越紧密,概率越低代表两个词的关系越疏远。图 1-5 展示了词“机

器学习”的翻译关系,由于其和“数据挖掘”、“最优化”的关系更加紧密,

所以翻译概率更高,相比而言与“信息检索”的关系较疏远,从而翻译概率也

较低。值得注意的是,一个词汇也有一部分概率是自己翻译到自己的,这一部

分概率我们称其为自翻译概率。由于我们的问题是通过引文上下文来推荐引用文献,进而我们发现这种词

汇之间的异质性,即同一个概念由多个不同的词汇指代的现象,正是发生在引

文上下文与引文所引文献之间。所以我们将引文上下文作为一边,将所引文献

作为另一边,并将它们看作是一对平行语料,然后在这些平行语料对上训练一

个可靠的翻译模型,希望这样能够将两边的词汇联系起来,解决词汇异质的问

题。

6

Page 17: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图 1-5 "机器学习"的翻译关系

在将翻译模型运用在信息检索中时[2],其假设一个查询语句和用户点击的

文档标题是平行的。虽然按照机器翻译理论而言,查询语句和文档标题并不是

严格意义上平行的,但是通过这种方法抽取到的词汇关系在信息检索中的确有

着很高的价值。通过使用类似的方法,很多信息检索相关的应用都获得了成功,如交叉语

言检索[12, 21],问答系统[19,30],ad-hoc 检索[8,11],追踪信息流[16]等。在这

些应用中,尽管有些训练数据包含的噪音很大,仍然获得了很好的检索效果。我们注意到在之前的研究中,他们都使用了与机器翻译中训练翻译模型相

7

Page 18: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

同的方法进行训练。然而在上述的信息检索相关的应用中使用的训练数据有一

个很大的不同:这些数据并不是严格意义上平行的语句,只是相关的文本而已。

当训练数据中的噪音比例升高,会导致得到的翻译模型更容易倾向于噪音,从

而它的有效性将大打折扣。比如说,在使用查询语句与相关文档对时,存在一个显而易见的问题:查

询语句往往会比相关文档短很多。这就导致在这个数据集上训练出的翻译模型

会使得一个查询语句中的词汇可以由很多相关文档中的词汇“翻译”得到。如

果文档的所有部分都和查询语句相关,就可能得到一个与预期相符的检索结果。

然而实际中,即使一篇文档和查询语句是相关的,通常这篇文章中也只有一部

分内容和查询语句是相关的,其他部分并不相关。如果我们假设整个文档和查询语句是平行的,那么将会不可避免地导致一

个充斥着噪音的翻译模型,也就是说查询语句中的词可以由很多文档中不相关

的词“翻译”得到。然而这种现象在信息检索领域却几乎没有被考虑到。在机器翻译领域,训练翻译模型时也会使用包含噪音的数据。但是在大多

数情况下,人们会首先通过一些过滤手段从数据中选取出平行的那一部分。对

8

Page 19: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

于查询语句和文档对而言,我们也可以诉诸于类似的过程来获得更好的训练数

据。比如说,我们可以通过余弦相似度或者其他检索分数选出文档中最相关的

段落。然而,这种方法事实上将会导致我们选出的只是包含查询语句中词汇最

多的段落而已。这可能会在一定程度上限制我们最后得到的翻译模型,因为这

样得到的翻译模型在联系查询语句中的词汇和文档中的词汇方面显然不够有效。所以本文提出了两种翻译模型的训练方法,它们分别是:全局翻译模型和

位置对齐翻译模型。全局翻译模型在整个训练集上使用查询语句、文档对进行

训练,并且分析了对于文档而言使用摘要部分和全文内容分别会对结果造成怎

样的影响。位置对齐翻译模型则是考虑到作为平行语料对一边的引文所引文献

中包含有大量内容,不可能通篇都在谈和引文上下文中所谈论的相同的事情,

所以这里提出了一个隐变量,即位置参数。通过这个位置参数将文档划分成若

干个段落,假设每个段落描述了一个不同的话题。这将在一定程度上使得查询

语句与文档更加“平行”。我们的训练数据更加“平行”,在其上训练出的翻

译模型就将更加可靠。由于其中引入了隐变量,所以我们将使用 EM 算法来进9

Page 20: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

行训练。我们通过实验将我们提出的方法使用在引文推荐的任务中,为一篇科技文

献中的一段话推荐准确的引用内容。这个任务可以是一个真实的任务,但是我

们这里只是将其作为一个检验我们方法的载体。我们将会看到全局翻译模型将

会在语言模型的基础上得到惊人的提高,实验结果表明全局翻译模型比其他的

相关方法的表现都要好。另外考虑了段落信息的位置对齐翻译模型也会在全局

翻译模型的基础上得到对应的效果提升。最后,我们进行了充分的实验,对提出的方法进行验证,并且对实验结果

进行理论分析。我们针对不同的参数组合、不同的训练样本数量等实验设置进

行定量实验,比较不同的模型在不同的实验设置下的效果。

1.2.2 翻译模型与语言模型的整合传统的信息检索技术经过了数十年的发展,逐渐成为了一门成熟的学科,

其中的经典检索模型如:向量空间模型、概率模型、语言模型等,在基于关键

字的检索任务中,获得了很好的效果,发挥了非常重要的作用。其中语言模型自从 1998 年提出之后,即受到了学术界的热捧。这主要归功

10

Page 21: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

于语言模型符合直觉的假设,简洁的数学形式,以及可以与当时最先进的检索

方法相媲美的检索效果。然而还有很重要的一点在于语言模型的结构决定了人

们很容易对其作出修改,在其中加入自己需要的特定项,使得这个模型更好地

为自己的特殊任务服务。对于引文推荐而言,使用语言模型即意味着我们只能按照词汇的外在形式

来对查询语句和文档进行匹配,这样做会导致检索结果的召回率较低。因为很

多文献都与引文上下文谈论同一件事情,但是使用的词汇却有所差异。本文解

决这个问题的方法即首先训练出一个可靠的翻译模型,即首先挖掘出可靠的词

与词之间的简单语义关系。然后将翻译模型加入语言模型的检索框架之中进行

检索。正是因为语言模型简洁的数学形式和易于调整修改的特性,我们的翻译模

型才能够发挥它的威力。我们这里使用翻译模型来表征两个词之间的相关程度,

将翻译模型整合到语言模型的检索框架之中,希望通过这两个模型的有力结合

来建立两种异质语言之间的纽带,解决词汇异质的问题。

11

Page 22: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

1.3 论文组织结构本文主要阐述了两种翻译模型的训练方法以及如何将翻译模型整合到语言

模型的检索框架之中进行引文推荐的问题。第二章首先介绍了在翻译模型和引文推荐两个课题上,学术界已经做出的

一些进展。针对这些方法的不足之处以及其在本任务中的适用性,也做了较为

深入的讨论。然后介绍了与本任务密切相关的一些背景知识,语言模型与翻译

模型。对语言模型,较为详细地介绍了查询生成假设以及检索公式。对翻译模

型,介绍了翻译模型的查询生成假设,查询似然计算公式,并且在最后,我们

发现从翻译模型的查询生成假设出发,我们得到的检索公式中同时包含了语言

模型与翻译模型。所以我们既可以说我们将翻译模型整合到了语言模型的检索

框架之中,也可以说翻译模型的查询生成公式之中,先天蕴含了语言模型。第三章主要介绍我们的数据集获取过程与具体的实验框架结构。首先我们

交代了我们对数据集的要求,数据集的获取方式,数据集的一些统计分布情况

以及对获取到的数据做的预处理。然后我们对所描述问题中的一些术语给出了

定义,并重新描述了问题本身。最后针对检索过程中使用的检索框架给出说明,12

Page 23: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

并且讨论了本任务中使用的评测方法与显著性检验方法。接下来在第四章中,我们给出了全局翻译模型的估计方法,对翻译模型的

截断处理以及最终的实验结果。针对全局翻译模型的不足之处,我们在第五章

中提出了位置对齐翻译模型。第五章详细介绍了如何使用 EM 算法估计位置对

齐翻译模型,并给出了相应的复杂度分析,最后给出了实验结果并对结果进行

了详实的分析。最后一章将对本文中所述方法的性能优势和创新点进行总结,同时对于方

法中的不足与下一步可以继续进行的工作方向做出展望。22Equation Section

(Next)

13

Page 24: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

第2章 相关工作 本章就本文相关工作进行阐述,首先介绍相关领域其他学者的近期工作及

进展情况。然后较详细地分别介绍了与本文联系很紧密的两个概念,语言模型

与翻译模型。

2.1 最新进展

2.1.1 引文推荐

引文推荐是研究如何向使用者提供引用备选项的问题。推荐高质量引文的

任务是非常具有挑战性的。因为被推荐的引文不仅要和文章本身相关,还要和

引用所处位置附近的上下文匹配。更进一步,整篇文章的话题还有引文位置附

近的上下文如何影响推荐引文的选择和排序,要想对其建模并不容易。SHAPARENKO 等[24]将一篇文章表示为两个语言模型的加和,一部分是论文

内容上的语言模型,另一部分是论文的引文上下文的语言模型,他们认为一篇

文章的引文上下文表示了这篇文章从别处吸取的知识和想法,最后使用 MAP 推14

Page 25: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

导得到引文推荐的结果。然而,由于引文上下文和论文内容使用的词汇存在不

匹配的问题,所以导致这种方法的召回率很低。HE 等[9]定义了一篇文章的引文入链和引文出链。他使用文章的入链上下文

对其进行表征,并且在推荐的过程中同时考虑了文章内部的外链上下文。然后

根据 Gleason[1]定理把引文推荐的问题转化为了关于矩阵的优化问题。还有一些

研究者[20,26]使用主题模型来预测两篇文档之间是否存在某种引用关系。Tang

等[26]基于 Restricted Boltzmann Machines[23]提出被称为 RBM-CS 的模型。这个

模型在引用关系和词汇的二层图结构中加入了一个不可见的话题层,话题的分

布由引用关系和词汇共同决定。为了训练这个图模型,提出了一个区别式的目

标函数(Discriminative Objective Function),通过最优化这个目标函数得到模型

中需要的所有参数。除文本信息外,一些研究者也在这个任务中使用了引用信息。他们通常要

求当前这篇文章已经包含一些其他引用。McNEE 等[15]使用协作过滤技术(collaborative filtering technique)来使用已

经存在的引用信息。他们假设与已存引用彼此互相引用的文章很有可能被现在

15

Page 26: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

这篇文章引用。ZHOU 等[32]提出用一种半监督学习的方法在多个图上扩展引用

关系(如,论文-论文图,论文-作者图)。一些研究者[25,27]将文本信息和已有关于这篇文章的其他引用信息结合起

来做推荐。这里集中在对文本信息建模,也有将现存的基于引用的方法结合起

来。

2.1.2 翻译模型

Berger 等人首先将翻译模型用在信息检索领域[2]。使用翻译模型的主要意

图在于其可以将文档中的词汇翻译到查询语句中的词汇,从而解决这种同义不

同词的检索问题。翻译模型可以很自然地被用到交叉语言检索中,因为交叉语

言检索就是一种查询语句和目标文档语言不同的检索场景。进而在很多其他的

应用中,只要查询语句和目标文档使用的词汇集合不同,翻译模型就能派上用

场了。Murdock[19]和 Xue[30]两个人在一个 FAQ(Frequently Asked Questions)

数据集上使用翻译模型来对问题和对应的答案做检索。 Metzler[18]将翻译模型

当做一 种 相 似度测 量 方 法 用 在 了 一 个 信 息流跟踪任 务 之 中 。 最近 ,

16

Page 27: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

Karimzadehgan 等[11]使用共现词汇的互信息训练翻译模型来提升检索效果 。

Gao[8]将翻译模型扩展到了短语之间以此来处理网络搜索查询语句和目标网页

标题之间使用不同词汇的问题。然而,在上述研究中,翻译模型都使用了和机器翻译领域相同的工具,如:

GIZA++等。尽管人们都认识到了所使用的训练数据中的噪音问题,但是人们却

又往往只看到了好的扩展效果,而没有关注到噪音带来的话题偏移问题。事实

上,如果一个翻译模型内含的噪音很严重,那么翻译的结果将不再和原始词汇

非常相关,这就很有可能导致话题偏移的发生,从而将得到与查询语句关系不

大的文档。如我们之前所述,当一个文档和查询语句相关时,通常的情况是文

档中有只有部分内容相关,其余的部分并不相关。训练模型时如果不加区分的

使用文档的不同部分,将不可避免地得到一个包含很多噪音的模型。一种更好的方法是把整个文档分割成段落,然后更多的依赖相关的那些段

落。类似的方法被成功地使用在段落检索问题上[13,28]。虽然使用段落的方法

出自直觉,但是这种直觉可以证明是有根据且有效的。因为尽管一个文档包含

几个不同的话题,我们仍然可以假设对不同话题的陈述并非完全随机放置在文17

Page 28: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

档中。作者通常会用一段连续的篇幅来谈论一个话题,之后才会转移到另外一

个话题。所以我们有理由相信在段落中存在某种程度的话题一致性。这种想法更进一步扩展到局部文本分析( local context analysis)中[29],其

中使用相关的段落,而不是整个文档,进行用户查询扩展。结果表明这种基于

段落的伪相关反馈(pseudo-relevance feedback)比基于整个文档的伪相关反馈

要更加有效。在本文中,我们提出的位置对齐翻译模型和这些使用段落的方法有一些相

似,但是我们扩展了翻译模型的训练过程,使得训练得到的翻译模型更加精确。

2.2 语言模型Pont 和 Croft 在 1998 年 的 一篇文章中首先提 出 了 语 言 模 型( Language

Model),并将其使用在信息检索之中。因为其优美的形式和简洁的框架结构

以及背后深刻的思想内涵,它的出现立马带来了信息检索相关领域的一次沸腾。

在后来的研究中,人们充分的使用语言模型,使它在很多方向都大放异彩,如:

语音识别、机器翻译、词性标注、手写识别等。语言模型[6]假定一篇文章中某个词的出现只可能和其之前出现的词相关,

18

Page 29: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

和之后出现的词均无关。假设这个词和其之前的 n-1 个词相关,那么这种语言

模型就被称为 n 元语言模型(n-gram Language Model)。这里,我们首先介绍

最简单的一元语言模型(Unigram Language Model)。

3.2.1 一元语言模型一元语言模型,根据上面的定义我们可以知道,在这里我们假定文章中的

每个词的出现都是彼此独立的,与之前出现的词也无关。这也就是说一元语言

模型其实是一种词袋子模型(Bag-of-Words Model)。一元语言模型本质上是针对这个语言中各个词的一个概率分布,概率大代

表这是一个高频词,概率小代表这是一个低频词。这就意味着,我们需要给我

们所拥有的文本集合中的每个词赋予一个和其出现次数相关的概率。假设我们

的 集 合 中 只包 含 5 个 不 同 的 词 , 那么 我 们 的 语 言 模 型 可 能就 是

(0.2,0.1,0.35,0.25,0.1),其中每个数字都是集合中某个词的出现概率。对于搜索相关的应用而言,我们可以使用语言模型来表示一篇文章谈论的

话题。实际上,“话题”这个词在信息检索领域并没有明确的定义,它就是指

19

Page 30: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

代人们谈论的内容。既然如此,我们可以将“话题”定义为词汇上的一个概率

分布,即语言模型。比如说有一篇关于“北京雪景”的文章,那么我们在一定

程度上可以断定在这篇文章的语言模型中与“下雪”和“北京”相关的词将获

得较高的概率。如果它是关于“上海雪景”的文章,那么概率高的词汇会有一

部分是一样的,然而和“上海”相关的词汇显然会比和“北京”相关的词汇概

率更高。一篇文档的语言模型还可以用来生成新的文本,我们只需要通过语言模型

表示的概率分布对词汇进行抽样即可。如果我们把语言模型看作一个装满了词

汇的大桶,每个词的概率决定这个词在桶中出现多少次,然后我们就可以重复

这样的过程:1. 手伸进桶里;2. 拿出一个词;3. 记下拿到的词;4. 把词放回去。

来得到生成的文本。然而需要注意的是我们并不能通过这样的方式生成这篇文

20

Page 31: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

档自身。事实上,由于我们只使用了一元语言模型,生成的文本将没有任何语

法结构,甚至毫无意义。最常用的 n 元语言模型除了一元语言模型,还有二元语言模型(Bi-gram

Language Model)和三元语言模型(Tri-gram Model)。在信息检索中,我们可

以使用二元语言模型来表示词组的出现概率。尽管如此,由于一元语言模型的

简单和有效性,我们这里还是使用一元语言模型来阐述如何通过语言模型进行

检索。

3.2.2 查询似然检索模型检索本质上其实就是针对一个用户给出的查询语句,根据具体的打分策略,

对已有集合中每个文档给出一个具体的分数,然后根据分数对文档进行排序,

然后将排序列表返回给用户的过程,如图 2-1。在查询似然检索模型中,我们将某个文档根据自己的语言模型生成查询语

句的概率作为这篇文档的分数。直觉上,我们可以把查询语句的生成概率看作

是文档和查询语句之间相关性的一种量化方法,那么这个分数其实就代表了文

21

Page 32: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

档和查询语句之间的某种话题相关性,用它来对文档排序即是一种合理的方式。由于我们首先拥有一个查询语句,所以我们就用概率p(D∨Q)来为文档打分,

D代表文档(Document),Q代表查询语句(Query)。通过贝叶斯(Bayes)

定理我们有:

p ( D|Q )= p (Q|D ) p ( D )p (Q ) ¿

rank p (Q|D ) p(D)

323\*

MERG

EFOR

MAT

(-)

其中符号¿rank代表在排序的意义上左边和右边相等,即对于不同的 D 和相同

的 Q 而言,依靠左右两边的式子分别对所有文档打分后排序的结果是相同的。

我们可以这样做的原因是对于任意文档 D 而言,查询语句都是 Q,即 p(Q)是一

个常量。上式中 p(D)被称为文档 D 的先验概率, p(Q∨D)被称为文档 D 相对于

查询语句 Q 的似然,在无歧义的情况下,即针对某次特定的查询时,可以简称

其为文档 D 的似然。

22

Page 33: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图 2-6检索过程

在大多数情况下,我们都假设 p(D) 符合均匀分布,即,对所有文档而言,

这个概率是相同的,所以这一项也不会影响最后的排序。因此,检索模型完全

根据概率 p(Q∨D) 为文档打分,这时我们使用文档的一元语言模型来计算这个

概率:

p (Q|D )=∏i=1

n

p (q i∨D)

424\*

MERG

EFOR

MAT

(-)

其中 q i 指代查询语句中的一个词,n 是查询语句中的总词数。由于我们假

设文档 D 中的词之间是条件独立的,即在文档 D 中,两个词是否出现之间是独

23

Page 34: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

立的,所以我们可以使用所有词概率的连乘来等价式 2-2 的左边。为了计算这个概率,我们需要首先估计这个语言模型的概率 p(q i∨D) 。最

显然的估计方法是:

p (qi|D )=f qi , D

¿ D∨¿¿

525\*

MERG

EFOR

MAT

(-)

其中 f qi , D是词q i在文档 D 中出现的频次,|D|是文档 D 的总词数。对于一个

多项式分布而言,这种估计方法被称为最大似然(maximum likelihood)估计,

这意味着在这种估计方法之下,我们观察到值f qi , D的概率是最大的。这种估计方法最大的问题在于,如果查询语句中有一个词在文档中没有出

现,查询似然语言模型给这篇文档打出的分数 p (Q|D ) 就会是 0。这对于长查询

而言肯定是不合适的。比如说,一个查询语句中有 6 个词,一篇文档中出现了

其中的 5 个词,只有一个词没有出现,这时显然不应该给这篇文档 0 分,因为

这篇文档显然在很大程度上和这个查询是相关的。为了解决这个问题,我们会

使用一种称为平滑的技术。平滑(Smoothing)是一种能够防止这种估计问题的有效手段,能够在一定

24

Page 35: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

程度上克服数据稀疏(Data Sparsity)带来的问题。一般而言,平滑主要是将文

档中出现的词汇的概率降低一些,然后将这些“省出来”的概率分配给没有出

现的词汇。对没出现词汇概率的估计主要基于在所有文档组成的文档集合中这

个词出现的频次。如果我们使用 p (qi|C ) 表示查询语句中的第 i 个词在整个文档

集合 C 的集合语言模型中的概率,那么我们使用 α D p (q i|C ) 对在文档中没有出现

的词进行估计,其中 α D 是控制分配给未见词汇的概率的系数,可以和具体的文

档相关,也可以所有文档公用一个值。为了满足概率之和为 1,文档中出现的

词汇的概率估计为:

psm (q i|D )=(1−α D ) p (q i|D )+α D p (qi|C )

626\*

MERG

EFOR

MAT

(-)

这里如果我们将α D设置为一个常量 λ 并用 cqi 表示在文档集合中词 q i 出现的

次数,我们就可以将概率估计 p(q i∨D) 写成:

p (qi|D )=(1− λ )f qi ,D

¿ D∨¿+λcqi

¿C∨¿¿¿

727\*

MERG

EFOR

MAT

25

Page 36: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

这种平滑方式被称为 Jelinek-Mercer 平滑。还有一种平滑方式,和上述估计

方式有所不同,但更加有效,它使用了和文档长度相关的参数α D。这种方法被

称为 Dirichlet 平滑:

α D= μ|D|+μ

828\*

MERG

EFOR

MAT

(-)

其中μ是一个根据经验设置的参数。将式 2-6 带入式 2-4 即得到使用 Dirichlet

平滑时文档中一个词的最终概率估计形式:

p (qi|D )=f q i, D+

μcqi

|C||D|+μ

929\*

MERG

EFOR

MAT

(-)

2.3 翻译模型Adam Berger 和 John Lafferty 于 1999 年,首次将统计机器翻译的方法引入信

息检索领域。他们的主要贡献在于提出了一个描述用户是如何把一篇已知的文

档提炼或翻译为查询语句的统计模型,并且使用将这篇文档翻译为这个查询语26

Page 37: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

句的概率来评价这篇文档和这个查询语句的相关性。这个过程其实可以被看作

是对语言模型的一个扩展。一个高性能的文档检索系统,必须要能够处理多义词和同义词,比如说

“北京大学”和“北大”就是两个强相关的同义词。然而统计翻译正是致力于

如何从巨大的文本数据库中自动的挖掘出这种语义联系的学科,所以信息检索

系统就可以使用统计翻译类似的方法,从文档集合中自动的学习到词汇之间的

关系,从而利用这些关系更好的对文档进行打分,使得排在前面的文档与查询

语句更相关。在接触翻译模型的具体内容之前,我们先来描述一下 Berger 和 Lafferty眼中

的信息检索过程。如图 2-2所示:

图 2-7查询语句生成、检索模型27

Page 38: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

我们假设用户在向检索系统提出查询语句之前,首先有一个“信息需求”。

接下来,这个“信息需求”被一个“理想文档”的片段代替,这个片段是用户

希望从系统中获取的文档的一部分内容。然后,用户通过抽取、替换关键词,

把这个“理想文档片段”提炼或者翻译为一个简洁的查询语句。总的来说,这个查询生成模型分为 3步:

1. 用户有一个信息需求I;2. 从这个需求出发,用户生成一个理想文档的片段D I;3. 用户从 D I 中选择一些关键词,然后用这些关键词组合生成查询语

句 Q 。如果从信息论的角度出发,我们也可以把查询语句生成的过程看作是一个

噪音信道。在已知查询语句 Q 和这个信道模型的情况下,检索系统的任务就是

鉴别出哪些文档最满足用户的信息需求。说得更精确一些,检索系统的任务其

实是已知查询语句的情况下找到后验概率概率最高的文档,即 p(D∨Q) 最高的

那些文档。通过贝叶斯定理:p ( D|Q )= p (Q|D ) p ( D )

p (Q )1

0210\

28

Page 39: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

由于 p(Q) 对于特定的某个查询语句而言是固定的,所以从对文档排序的角

度来看,我们只需要忽略它就好。那么文档与查询语句之间的相关性 ρQ( D) 被

定义为:

ρQ ( D )=p (Q|D ) p(D)

1

1211\

*

MERG

EFOR

MAT

(-)

上式表明,相关性由两部分组成,第一部分 p(Q∨D) 是与查询有关的项,

第二部分 p(D) 则是与查询无关的项。下面我们将使用 IBM 的翻译模型来完成文档到查询语句的映射。这个模型

根据下述步骤生成查询语句:1. 首先,我们根据分布 ψ (m∨D) 为查询语句选择一个长度m;2. 然后,对于查询语句的每一个位置 j∈[1…m ],我们选择文档中的一个

29

Page 40: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

位置i,根据翻译模型 t (.∨di) 将d i翻译成q j;那么当我们已经有了一个查询语句和一篇文档时,我们用 n=¿ D∨¿ 来表示

文档的长度,用 m=¿Q∨¿ 来表示查询语句的长度,这个查询语句由这篇文档

翻译得到的概率 p(Q∨D) 就是对所有可能的查询语句和文档之间对齐方式的概

率的加和,如下:

p (Q|D )=ψ ( m|D )nm ∑

a1=1

n

…∑am=1

n

∏j=1

m

t (q j|da j ) .

12212\

*

MERGE

FORMA

T (-)

在式 2-10 中,最右边的连乘符号代表在一种对齐方式下,查询语句 Q由文

档 D 翻译生成的概率。式子中间的 m 个和号表示对每一种对齐方式下的生成概

率做加和,其中查询语句 Q 中第 i 个位置的词由文档 D 中的第a i个词翻译得到,

a1到am的一种取值就对应了一种对齐方式,这些和号即表示了对所有对齐方式

的生成概率的加和。ψ (m∨D) 是查询语句的长度分布,这可以作为生成过程的

一个先验,比如我们可以定义 m太小或太大的时候概率较低,但是一般情况下,

我们会认为它服从平均分布。分母 nm 是对所有对齐方式取了平均,这也是为了

30

Page 41: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

保证最终得到的值是一个概率所必须做的事情。为了方便理解式 2-10,我们假设有 |Q|=4 的查询语句,|D|=5 的文档,那

么一种可能的对齐方式是 a1=2 , a2=3 , a3=1 , a4=5,图 2-3 是这种对齐方式下的

示意图。

图 2-8式 2-10示意图

对每一种如图 2-3 中的对齐方式的生成概率求和再归一化为概率,即为式 2-

10所表示的含义。对式 2-10做一些简单的代数变换(附录 1),可以发现生成查询语句 Q 的

概率可以写作:

p (Q|D )=ψ (m|D )∏j=1

m

p (q j|d )

13213\

*

MERGE

FORMA

T (-)

其中:31

Page 42: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

p (q j|D )=∑w

t (q j|w ) l(w∨D)

14214\

*

MERGE

FORMA

T (-)

这里的 l(w∨D) 是文档的语言模型。在这里我们就可以看到,最终的检索

模型其实是语言模型与翻译模型共同组成的一个混合模型。153Equation Section

(Next)

32

Page 43: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

第3章 数据集与实验设置

3.1 数据收录由于本应用的特殊性,我们需要大量的引文上下文与被引用文章对,一般

的论文数据集合无法满足要求。因为我们需要准确的提取文献中的引文上下文

并且在引用列表中找到被引的这篇文献的题目、作者等元信息,进而在论文集

中找到满足这些元信息的文献内容,才能进行接下去的实验。然而由于在一篇非结构化的文献中,这个问题本身就非常具有挑战性。提

取引文上下文、提取引用列表、准确得解析出文章元信息、在论文集中找寻这

篇文章,这每一步都会由于不可避免的错误带来精度上的损失,这将导致最终

的实验结果偏差被放大,不能反映模型的真实效果。幸运的是,由于微软亚洲研究院(Microsoft Research Asia)推出的卓越产品

微软学术搜索[17](Microsoft Academic Search)在提供基础搜索服务的同时,

也将文献相关的元信息一并提出且展示给用户,方便用户浏览。这很大程度上

33

Page 44: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

方便了我们所要进行的实验。

图 3-9微软学术搜索

如图 3-1所示,是微软学术搜索对文章“ Information Retrieval as Statistical

Translation”的展示页面,其中红色框起来的部分就是其他文章对这篇文章的引

用上下文。综上,我们采用了微软学术搜索对外公布的 API 进行数据集获取工作。我们

对微软学术搜索中计算机学科下的所有含有提取好的引文上下文的文献全部进

行了抓取。其中包含了诸如 SIGIR、NIPS、KDD 等知名会议的文献。主要统计信

息如表 3-1所示。

34

Page 45: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

表 3-1数据集统计信息会议数量 2758

文献数量 29353

引文上下文数量 97661

引文上下文平均长度 23

集合词汇数量 78404

引文上下文我们一般定义为引文占位符附近的 2-3 句话。本实验使用了微软

学术搜索提取的引文上下文,针对这些引文上下文,我们对其长度做了一些统

计。从表 3-1 中我们看到数据集中引文上下文的平均长度为 23 个词,我们假设

一句话一般有 10 个词左右,那么 23 个词恰好处于 2-3 句话的长度之间。

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 770

500100015002000250030003500400045005000

引文上下文长度

引文上下

文数量

图 3-10 引文上下文长度的分布

35

Page 46: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图 3-2 展示了不同长度的引文上下文的分布情况。统计结果显示,80%的引

文上下文长度在 32 个词以内,90%的引文上下文长度在 47 个词以内。这足以说

明微软学术搜索提取的引文上下文在很大程度上与本实验所需要的数据是吻合

的。

3.2 数据预处理

在得到原始数据之后,由于我们获取到的是 PDF格式的文献内容,首先我

们需要将其转化为适合检索的纯文本格式,这里我们使用了 pdfminer[22]这款工

具。pdfminer 是纽约大学的 Yusuke Shinyama开发的一款解析 PDF 文件的 python

工具,它不仅提供了丰富的 API 供用户使用,同时也提供了简捷的命令行工具,

方便用户使用默认参数设置快速得到想要的内容。在信息检索中,为了方便检索过程得到可靠的数据,避免被噪音干扰,往

往需要对原始数据先做一些自然语言处理层面的简单处理。我们这里也一样,

在拿到原始的 PDF格式数据后,我们使用 pdfminer 将其解析为纯文本格式,之

后也做了一些简单的预处理工作。

36

Page 47: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

1. 去除标点符号,去除不是字母也不是数字的字符。考虑到学术文献中的

实体信息往往都是字母和数字构成,标点符号只表示语法结构,没有携

带语义层面的信息,所以这里我们去除掉这些非字母且非数字的符号。

之所以保存数字信息,是因为有些定理或者问题的通用名称中会包含数

字,如“哥尼斯堡七桥问题”等。它们在一定程度上含有一定的信息量,

和周围的词汇也存在关系,所以予以保留。2. 将所有内容转化为对应的小写格式。这是信息检索中常用的一个预处理

步骤。在英文书写格式中,句子起始位置的词要首字母大写,在表示强

调的位置会用词的大写形式,一些非英语系的作者名字,如汉语名字

“欧阳”,有的人会使用“Ouyang”,有的人则会使用“OUYANG”。针

对这些情况,我们有必要对所有词的书写形式进行统一化,所以这里我

们将其统统转为对应的小写格式。这样也会存在一些问题,如“APPLE”

表示苹果公司,而“apple”表示水果中的苹果,大小写的不同这时就会

有语义层面的差异,但是这种情况在学术文献中出现的情况并不常见,

而且也非本文研究的重点,所以这里不对这种情况作更多处理。37

Page 48: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

3. 对每个单词使用 python 的 NLTK 工具包获得词根。取词根有助于检索过

程得到高质量的检索结果。在英文中,名词有单数、复数,动词有现在

时、过去时、现在完成时、第三人称单数。在这些情况中,尽管使用的

词在字面上不同,但是它们表示的含义其实几乎一模一样,我们有理由

将他们视为同一个词。

图 3-11预处理后数据示意图

最终,我们处理之后得到的数据如图 3-3所示。第一行是文献的标题,第二

行是文献的摘要,第三行是文献的全文,由于空间原因,此处只截取了全文的

部分内容,第四行以下是引用此篇文献的文献中对应的引文上下文。38

Page 49: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

3.3 问题描述本节我们将正式对本文中所使用的术语和具体任务做出定义。定义 3.1 引文占位符:在文档 d 中,表示引用关系的地方,作者使用的“[]”

符号称做引文占位符。定义 3.2 引文上下文:在文档 d 中,引文上下文 c 是环绕引文占位符的若干

文字。如图 3-4所示,左上的文献被称为引用文献,右上的文献被称为被引用文献。

红色框中的“[]”被称为引文占位符,蓝色框中的内容就是这个引用关系上的引

文上下文,即引文占位符附近的若干文字。

39

Page 50: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图 3-12相关术语示意图

定义 3.3 引文推荐:已知一段文字 c,通常是未知确切引用对象的引文上下

文。引文推荐需要给出一个出自某个文献集合的引用对象的有序列表,这些引

用对象即是针对文字 c 给出的推荐引用。如图 3-4所示,假设我们是左上文献的作者,当我们行文至此,尚不知应该

引用那篇文献来支持这段话时。我们就可以将这段话当做查询语句,在一个文

档集合中进行检索,得到相应的推荐引用列表。如第 2章所述,翻译模型是一个概率分布,是一个词汇翻译到其他词汇的

分布,我们可以使用 t (w1∨w2) 表示词汇 w2 翻译到词汇 w1 的概率。本文使用翻40

Page 51: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

译模型进行引文推荐工作,如何训练翻译模型是本文的重心所在。接下来我们

先介绍我们的检索框架,假定我们已经获得了一个可靠的翻译模型。

3.4 文档排序在我们获得了一个可靠的翻译模型之后,对文档集合中的备选文献如何进

行排序就是我们的主要工作所在了。我们用 C={c1 , c2 , …, cm ¿ 指代有 m 个词的

引文上下文,用 D={d1 , d2 , …, dn¿ 指代包含 n 个词的被引文献内容。我们将引

文上下文作为查询语句,然后就可以用查询似然检索模型对文档 D打分:

p (C|D )=∏c i∈C

p(c i∨D)

1

6316\

*

MERG

EFOR

MAT

(-)

其中,p(c i∨D) 为文档 D 的语言模型中词 c i 的概率。在实际中,在使用语言模型之前,首先要对其进行平滑,否则会出现 2.2节

中描述的零概率问题:p (c i|D )=α ∙ pml (c i|C )+(1−α ) ∙ pml(c i∨D) 1

7317\

41

Page 52: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

其中, pml (c i|C ) 是词 c i 在文档集合的语言模型中的概率, pml(c i∨D) 是词 c i 在

文档 D 的语言模型中的概率。若我们将式 3-2 中的参数 α 设置为一个常数 λ,就得到 Jelinek-Mercer 平滑,

若设置为 μ|D|+μ 就得到 Dirichlet 平滑。具体的平滑方式使用情况与使用的模型

有关,在本实验中,我们对于全局翻译模型我们使用 Jelinek-Mercer 平滑方式,

对位置翻译模型使用 Dirichlet 平滑方式。由于引文上下文和被引用文献中使用的词汇往往并不一样,这就需要翻译

模型来将两种不同的语言表达方式联系到一起,避免像语言模型一样,对于同

义不同词的情况给出一个不符合预期的分数。假设我们的查询语句是“北京大

学”,根据语言模型,所有包含“北大”而不包含“北京大学”的文档将获得

0 分,或者只有从文档集合平滑得到的很小的分数,这显然与用户的查询预期

不符。所以我们将翻译模型融入查询似然检索模型,得到:

42

Page 53: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

p (c i|D )=α ∙ pml (c i|C )+(1−α ) ∙ ∑d j∈D

t (c i|d j ) pml(d j∨D)

1

8318\

*

MERG

EFOR

MAT

(-)

上式中,t (c i∨d j) 为翻译模型,代表从词 d j 翻译到词 c i 的概率。这个模型中同

时蕴含了文档的语言模型和翻译模型。显然,此时只要我们训练得到的翻译模型有效、准确,类似“北大”、

“北京大学”这种同义不同词的检索任务将很好的完成。由于在实际情况中,自翻译概率 t (w∨w) 往往会比较小,即同一个词既出

现在引文上下文中,也出现在其对应的文档中的情况比较小,从而导致翻译模

型不能很好工作。当论文中包含引文上下文中的词时,若自翻译概率过小,就

会导致使用该公式得到的分数较低。XUE[30]等提出一种可以提高自翻译概率的方法,并且通过实验证明这种方

法可以有效提高检索效果:t self (wC|wD ¿=β ∙ 1 (wC=wD )+(1−β)∙ t (wC∨wD) 1

9319\

*

43

Page 54: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

上式中,1(wc=wd) 是一个信号函数,当词 w c 和词 wd 一样时值为 1。t (w c∨w d)

由翻译模型的估计得出。这里可以看到,不对自翻译特殊处理即是公式 4-3 中

β=0 时的特殊情况。将式 3-4代入式 3-3 即得到最终的文档排序公式。在代入后的公式中,我们

也可以看到,对自翻译概率的提高也可以看做是在使用文档的语言模型进行二

次平滑的过程。

44

Page 55: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

3.5 评测方法

图 3-13评测方法示意

首先,我们要确定我们使用的评测指标[14]。一般评价搜索结果好坏的评测

体系有两种:1.NDCG(normalized discounted cumulative gain);2.MAP(Mean

Average Precision)。然而 NDCG 需要我们对搜索结果中的每篇文档,根据其和

查询语句之间的关系,给出一个介于 0 - 3 之间的相关度分数。这种评测方法需

要大量的人力成本,才能获得可信大小的评测数据。所以本实验中我们并不使

用 NDCG 对结果进行评判。而 MAP仅需要对搜索结果中的每篇文档给出相关或不相关的二元判断即可 。

针对 MAP 而言获取相应规模的评测数据会容易许多。进一步,在本实验中,我45

Page 56: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

们把引文上下文当做查询语句,所以我们假设这个引文上下文真正引用的那篇

文章是论文集中唯一相关的文献。这样既将人工成本减少到了最低,同时也满

足所研究问题的真实需要。下面给出 MAP 的计算公式:

MAP ( D1 , D2 , …, Dn )=∑

i

R ( Di )i ∑

j<iR ( D j )

∑i

R ( D j )

2

0320\

*

MERG

EFOR

MAT

(-)

其中,R ( Di ) 是一个布尔函数,用来表示文档Di是否相关。

图 3-5 展示了我们的评测流程,在本实验中,根据我们对于相关的定义,

MAP公式退化为 MRR(Mean reciprocal rank),对于查询语句 q 而言,若其唯

一相关的文档在检索列表的 xq 位置处,那么这个查询的评测分数则为 1/ xq ,再

对所有查询求取平均即可。

3.6 显著性检验

在评测结束之后,我们要根据我们的实验结果来判断我们的新方法是否比46

Page 57: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

旧方法要好。仅凭借实验结果的数据来比较是不准确的,因为结果的提高或许

是由于随机性导致的,这种提高是不是显著的,需要我们使用统计手段进行假

设检验才能知晓。下面我们介绍本文中实验结果的显著性检验方法。假设我们有两个方法,

我们分别称其为方法 1 和方法 2,我们要看方法 1 是否比方法 2 好,首先需要得

到如下表所述的数据。我们使用 n代表实例的数目,μ 代表样本均值,σ 代表样本标准差,S代表

样本的方差。

表 3-2显著性检验相关数据方法 1 方法 2

实例书 n1 n2

均值 μ1 μ2

标准差 σ 1 σ 2

方差 S1 S2

显著性数值为:

47

Page 58: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

t=μ1−μ2

√ S1

n1−1+

S2

n2−1

2

1321\

*

MERG

EFOR

MAT

(-)

然后我们挑选不同的显著性等级 p,通过查表得到对应自由度为 n1+n2−2 的

数值 k。若 t>k则证明方法 1 对方法 2 的提升的显著的。特别的,当 p=0.05 我

们认为是显著的,当 p=0.01 时,我们认为提升是极其显著的。

3.7 实验框架

本章就数据的收录、处理以及整个实验中除去翻译模型训练部分的结构进

行了描述。本节将对上述各节进行总结,给出实验的整体框架。如图 3-6所示,我们整个的实验过程分为 5 个环节:1. 首先从微软学术搜索上获取论文数据。包括论文的 PDF 文件以及标题、

作者、摘要等元信息。2. 对获取的论文数据进行预处理。使用 pdfminer 提取出论文 PDF 文件中

的纯文本信息。然后去除非字母、非数字符号,转换为小写,取词根。

48

Page 59: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

组织为我们需要的结构化数据。3. 训练翻译模型。具体内容会在接下来的第 5章和第 6章详细描述。4. 使用训练好的翻译模型,将引文上下文作为查询语句,进行检索。主要

使用式 4-3 作为打分函数,辅之以不同的平滑方法,如 Jelinek-Mercer 平

滑或者 Dirichlet 平滑。

图 3-14实验整体结构图

5. 对检索结果进行评测。使用 MAP 分数,对翻译模型检索出的文档有序

49

Page 60: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

列表进行打分,统计最终结果,作为该模型的有效性指标。

224Equation Section (Next)

50

Page 61: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

第4章 全局翻译模型He[9]的文章中将推荐引文包含在用户提交的一个引用列表中的方法称为局

部引文推荐,将推荐引文不包含在用户提交的引用列表或者用户没有提交引用

列表的方法称为全局引文推荐,这里我们延续他的命名方法,将我们的第一种

翻译模型的训练方法称为全局翻译模型。本章将会介绍如何使用全局翻译模型的训练方法以及使用全局翻译模型进

行引文推荐的方法。

4.1 模型估计翻译模型定义了将一种语言的一个词翻译为另一种语言的一个词的概率。

对于引文推荐而言,使用在引文上下文和论文内容上的语言往往是不尽相同的。

所以需要通过将论文中的一个词 wD 翻译到引文上下文中的一个词 wC 来将两种

异质语言连接起来。为了在引文推荐问题中估计翻译模型,我们将一条引文上下文和其所引用

51

Page 62: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

的文章看作一对平行语料,我们的训练数据集就由很多这样的平行语料对构成,

即 T={ (C , D )} ,其中 C代表引文上下文,D代表 C 引用的文章。而翻译模型就

可以在这些数据上使用最大似然估计来估计:

t ¿=argma xt ∏( C , D )∈T

p(C∨D , t)

2

3423\

*

MERG

EFOR

MAT

(-)

这 个 公 式 中 的 翻 译 模 型 可 以 使 用 期 望 最 大 化 ( expectation-

maximization,EM)算法来估计。但是在实际使用中,翻译模型通常可以用一

种简单的启发式的方法来近似估计,这样可以使得训练过程更加高效:

t ( wC|wD )=count ( wC , wD )

count ( wD )

2

4424\

*

MERG

EFOR

MAT

(-)

其中count (wC , wD)为论文 D 包含词 wD且引文上下文 C 包含词 wC的(C , D)对

在训练数据 T 中的数量,count (wD)为论文 D 包含词 wD的 (C , D)对在训练数据 T

52

Page 63: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

中的数量。由于在实际情况中,自翻译概率 t (w∨w) 往往会比较小,从而导致翻译模

型不能很好工作。当论文中包含引文上下文中的词时,若自翻译概率过小就可

能会导致低估这篇文章的分数。XUE[30]等提出一种可以提高自翻译概率的方法,

并且通过实验证明这种方法可以有效提高检索效果:

t self (wC|wD ¿=β ∙ 1 (wC=wD )+(1−β)∙ t (wC∨wD)

2

5425\

*

MERG

EFOR

MAT

(-)

上式中,1(wc=wd) 是一个信号函数,当词 w c 和词 wd 一样时值为 1。

t (w c∨wd) 由公式 4-2 计算得出。这里可以看到,不对自翻译特殊处理即是公式

4-3 中 β=0 时的特殊情况。

算法 1:全局翻译模型的训练1:2:3:4:5:6:

输入:训练数据(引文上下文,文档)对 T

自翻译提高参数 β输出:翻译矩阵 t

53

Page 64: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

7:8:9:10

:11:12

:13

:14

:15

:16

:17

:18

:19

:20

:21

:22

:23

:

初始化翻译矩阵 t 的每个元素值为 0

初始化辅助计数器 p 的每个元素值为 0

文档集合的词汇总集用 V 表示

//统计翻译计数for (C,D) in T do for wc in C do

for wd in D do t[wc][wd] ← t[wc][wd] + 1end

p[wc] ← p[wc] + d.length endend

//归一化for wc in V do if p[wc] != 0 then for wd in V do t[wc][wd] ← t[wc][wd] / p[wc] end

24:25:26:27:28:29:30

end

//自翻译提升for wc in V do for wd in V do

if wc != wd

then t[wc][wd] ← (1 - β) * t[wc][wd]else t[wc][wd] ← β + (1-β)*t[wc][wd]

endend

54

Page 65: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

:31:32:33:

全局翻译模型的训练方法如算法 1所示,只需要维护两个计数器,统计计

数,然后进行归一化,再做一下自翻译提升即可。算法本身非常简洁,明了,

时间复杂度为O(max {|T|Lc Ld ,|V|2})。其中|T|代表训练数据中(引文上下文,被

引文章)对数,Lc 是引文上下文的平均长度,Ld 是被引文章的平均长度,|V|是

文档集合中词汇的数量。通常而言,|V|2总是更大,所以时间复杂度可以近似认

为是O(|V|2),这对于大数据集上的训练问题而言,是一个可以接受的时间复杂

度。

4.2 翻译链截断

然而当我们使用翻译模型进行检索时,不可避免会碰到一个问题。翻译模

型训练出来之后,其实就是一个词-词的翻译矩阵,这个矩阵的存储需要大量空

间,以及在线打分时使用这个矩阵也会很耗时。在我们的实验中,对于文档集

55

Page 66: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

合中的词汇进行简单的取词根(stemming)处理之后,得到了 78404 个不同的

词汇。这些词汇构成的翻译矩阵在内存中将占用 45GB 的空间。一种启发式的方法是我们可以仅存储每个词能够翻译到的词中前 K 个概率

最大的词。这种方法的好处在于,一方面我们可以大大的降低翻译矩阵占用的

内存空间,且对文档进行排序打分时,将忽略很多翻译意义上的长尾词汇,使

得打分过程加速;另一方面也更加重要的是,对于这些长尾的消除,在一定程

度上使得我们的翻译模型更加纯净,减少噪音造成的影响。我们试想,在每个词按照概率从大到小排序后的翻译链中靠后的那些词汇,

也许前一个词汇只比后一个词汇在统计的时候多出现了一次,甚至出现次数一

样,而且他们的出现总次数可能就是 1-2次,在这种情况下,我们很难说排在

前面的词真的就比后面的词更容易通过翻译得到。这可能是我们的数据集造成

的,也可能是因为当次数相同时我们默认的排序方式造成的。总之,这种位置的序关系在很大程度上不仅不能帮助我们表现词与词之间

的关联程度,甚至还会对我们产生迷惑。所以,适当地将翻译链中排在后面的

词汇去除的确有助于提升我们最终的检索效果。

56

Page 67: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

下面,我们通过一个我们实验中的词汇翻译链的例子来佐证我们的分析,

证明我们这么做是符合直觉,且在客观上是真实有效的。表 4-1 给出了我们训练出的翻译模型中,词 regulariza 的部分翻译关系。前

两行给出了翻译概率最大的 10 个词,后两行给出了翻译概率最小的 10 个词。

由于我们在 3.2节所述的预处理阶段对所有词汇进行了取词根的操作,所以我

们表 4-1 中展示的大部分都不是正确的词汇,而是这些词汇的词根。但是从词

根上我们仍然可以看出这些词根所代表的词汇大概是什么。

表 4-3 regulariza 的翻译概率regulariza

概率最大的

10 个词

shape estim point maximum algorithm

reconstruct 3d posterior map probabl

概率最小的

10 个词

below sought saarbr function recognit

nois institut color program standard

这个表是关于 regulariza 的,其对应的词汇应该是 regularization,即我们所

说的正则化。在维基百科中,对其的解释为:正则化,在数学和统计,尤其是

57

Page 68: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

在机器学习中,通过引入额外的信息来解决一个病态(ill-posed)的问题或者解

决过拟合的问题。这个信息通常是对复杂性的一种惩罚,如平滑或者对向量空

间范数的限制。我们看表 4-1 的前两行出现的词汇,我们很自然的就可以猜测到为什么这些

词汇会和 regularization 的关系如此密切。Shape、reconstruct 是正则化对原问题

做出的变化,因为正则化会改变目标函数的形状,并且对原问题进行重构;

estimation、maximum、algorithm、posterior、probability、map则是在讨论正则

化问题时常常会提到的一些概念,如分布估计,最大似然,后验,映射等;3d

和 point也是正则化在特定情境下的使用。我 们 再 看 表 4-1 的 后 两 行 出 现 的 词 汇 。 如

below、 function 、program、standard 等词都是一些比较常用的一般性词汇,

below只是一个介词可能出现在任何一个句子中,function、program 在计算机

领域也是非常通用的词汇,和 regularization并没有特别紧密的联系,其他如

color、sought 等,在直觉上我们想象不出其和 regularization 有什么直接联系,

只能认为这是在特定数据集上表现出的噪音了。58

Page 69: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

最后我们再看看这些词之间的序关系,在表 4-1 的前两行,我们有理由认为

shape 的排名在 estimation 和 algorithm 之前是有意义的,因为 regularization 的

过程就是改变目标函数的形状。Maximum也应该排在 probability 这种更加一般

化的词汇前面,因为 regularization总是伴随着最大似然估计。然而在表 4-1 的

后两行,这种序关系则不是那么清晰了。比如 below 排在 function前面,color

排在 standard前面,我们并没有理由这么做,这些词和 regularization 的关系在

我们看来是混浊不清的。模型训练出的这些结果,在检索过程中,将以噪音的

形式存在,无法为检索提供有意义的序关系。综上所述,足以说明我们训练出的翻译模型是符合我们的直觉的,翻译模

型的确能够将语义上息息相关的概念通过概率的形式联系起来。对于翻译链长

尾的词汇进行恰当的截取也有着符合直觉的意义,在后面的实验结果中,我们

也将看到在客观上这种截断的的确确有益于检索结果。

4.3 实验与结果我 们 选 用 的 基准方 法 有 两 个 : 查 询 似 然 语 言 模 型 和 上下文 相 关 模 型

59

Page 70: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

(context-aware relevance model, CRM)[9]。对查询似然语言模型和翻译模型而

言,我们既可以用论文的摘要来代表文章,也可以用论文的全文内容来代表文

章。一般我们认为,摘要包含文章的主体信息,但是也不可避免的缺少很多细

节;全文详细而周密的表示了作者的写作内容,然后也可能引入了不小的噪音。

所以在实验中,我们将分别使用这两部分来代表文章。

表 4-4 实验方法列表名称 描述

LM ❑a 摘要上的查询似然语言模型L M f 全文上的查询似然语言模型CRM 上下文相关模型T M a 摘要上的翻译模型T M f 全文上的翻译模型T M sa 摘要上自翻译提高的翻译模型T M sf 全文上自翻译提高的翻译模型

另外考虑到我们在 4.1节提到的自翻译问题,我们也在实验中检验了自翻译

对于检索性能的影响。我们采用的所有实验方法,包括作为对比的基准方法都

60

Page 71: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

列在表 4-2 中。其中下标为“a”的方法,代表我们用文档的摘要表征这篇文档,

下标为“f”的方法,代表我们用文档的全文表征这篇文档。表 4-3 展示了每种方法在数据集上的最好结果。在结果中我们发现了一些有

趣的结论:表 4-5 各种方法实验性能

名称 L M a L M f CRM T M a T M f T M sa T M sf

MAP 0.122 0.211 0.238 0.519 0.494 0.571 0.535

首先,全局翻译模型的结果相比查询似然语言模型的结果表现好了非常多。

这表示相对于语言模型这种只考虑词汇字面的模型而言,在引文推荐这个问题

上,我们可以确信翻译模型引入的翻译关系对检索结果起到了质的提升,它的

有效性毋庸置疑。其次,在摘要和全文上的全局翻译模型都要比对应的查询似然语言模型表

现好。用摘要表示文档时,提升达到 368%;用全文表示文档时,提升达到

153%。这再次说明在引文上下文和原文中的词汇是异质的,这种异质性不仅存

在于引文上下文和文档全文之间,也存在于引文上下文和文档的摘要之间,所

以为了解决这种异质问题引入的翻译过程是必要的。61

Page 72: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

第三,对于翻译模型而言,不论是否考虑自翻译问题,在摘要上的效果总

比全文要好。相反地,语言模型在全文上则比在摘要上的效果要好。这就说明

摘要中缺失了论文中的一些重要信息,而引文上下文可能涵盖了这些缺失的信

息,对语言模型而言,它不能从摘要中生成这些缺失的信息,所以导致使用摘

要表征文档时,语言模型的效果不如使用全文表征文档。而对翻译模型而言,

通过翻译则可以生成这些缺失的信息,因为摘要中的词汇和全文中的词汇非常

相关,通过翻译则可以生成摘要中没有提到而引文上下文中提到的信息。使用

全文表征文档时,因为全文包含了论文的所有信息,可以帮助生成引文上下文,

所以对于语言模型而言有益,但是可能会影响翻译模型的表现,因为在翻译矩

阵中会引入过多的噪音,如前所述,全文中并非每个部分都与引文上下文中所

述内容紧密相关。最后,实验结果表明上下文相关模型比语言模型表现要好,但比不上翻译

模型。再次确定在引文推荐问题上,这种翻译的过程是十分必要且十分有效的。如公式 3-3、4-3所示,全局翻译模型中有 3 个参数:α 控制着背景集合模型

的混合权重,β 控制着自翻译提升的权重,K 控制着从一个词可以翻译到的词的62

Page 73: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

个数。

图 4-4参数 β对结果的影响

图 4-6 翻译词保留数量 K 对结果的影响

在实验中,我们发现 α 越小,性能越好,而且这种趋势当 α 非常小时仍然

存在,所以我们将 α 定为一个非常小的值(实验中为10−5)来防止零概率的出

现。这表明集合模型的平滑在这种情况下用处不大。一种可能的解释是词概率

63

Page 74: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

被翻译模型隐性的平滑了。当我们在 0 – 1 之间调整 β 时,发现其在 0 – 0.2 之间效果最好。图 4-5 展示

了 β 在 0 – 0.2 之间的结果。图 4-6 展示了对应不同的翻译词数,整个模型的表现情况。从图中我们看到

当参数 K=400时,使用全文的全局翻译模型达到最优,当 K=800时,使用摘要

的全局翻译模型达到最优。一篇论文的摘要通常短小简单,因此需要翻译到更

多的可能出现在引文上下文中的词。从结果可以看到,当 K值超过最优值之后,

整体性能维持在一个相对变化很小的范围之中。265Equation Section (Next)

64

Page 75: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

第5章 位置对齐翻译模型本章将分析全局翻译模型的不足,并在此基础上讨论我们提出的第二个翻

译 模 型 的 训 练 方 法 : 位 置 对 齐 翻 译 模 型( PTM , position-aligned translation

model)。

5.1 模型估计如前所述,我们假设查询语句是由相关文档的词汇翻译而成。然而,此处

与机器翻译中的平行语料不同,因为查询语句和相关文档之间严重不平衡,没

有严格对齐。与相对较短的查询语句相比,文档通常非常长而且包含多个主题。

即使文档与查询语句相关,我们也不能说文档的每个部分都和查询语句相关。如果我们能够将查询语句和文档中高度相关的那一部分进行对齐,那么应

该可以帮助我们对翻译概率进行更好的估计。但是这做起来并不容易,因为我

们不知道文档的哪一部分和查询语句是相关的。相关的部分可能出现在文档的

很多位置。不过一篇文档中的主题并不是随意变更的,因为作者一般情况下,

65

Page 76: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

总是先用一定篇幅来描述一个主题,然后再去描述下一个主题。因此,我们可

以将这种情况视为,关于某个主题的词汇被自动的聚合在了一起。这就意味着

我 们 可 以尝试一 些 基 于 文 档 段落的 方 法 。 之前有 一 些 关 于 文 档话题切割

[3,10,18]、基于段落的检索[5,33]等工作已经验证了这个想法。接下来,我们也

将这种思想运用在翻译模型的训练之中。在新的翻译模型训练过程中,我们将考虑一个查询语句和文档段落之间对

齐的强度。由于新的翻译模型通过位置对齐来估计,我们将其称为位置对齐翻

译模型。对于一个查询语句和文档对(Q , D)而言,我们假设文档 D生成查询语

句 Q 的过程如下:1. 根据多项式分布ϕ D,选择位置参数 k;2. 对于查询语句 Q 中的每个词wQ:

a) 根据多项式分布θD, k选择一个文档中的词wD

b) 根据多项式分布ψwD选择一个查询语句中的词wQ

66

Page 77: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图 5-15位置对齐翻译模型

其中,ϕ D是生成查询语句 Q 的位置先验分布,它可以反映不同位置的重要

性先验,比如说一篇文档的开头或者某些特定的域可能会更加重要。在本文中,

我们简单地将这个先验分布设定为平均分布。θD, k 是文档中某个特定位置的语

言模型,而 ψ 是翻译模型。文档中某个特定位置的语言模型由这个位置周围的

词决定,它可以是这个位置周围词汇的一个窗口[5,33],也可以按照周围的词汇

到这个位置的距离赋予相应的权重[15]。生成过程如图 5-1所示。相应的,从文

档 D生成查询语句 Q 的似然如下所示: p (Q|D )=∑

kp(k ;ϕD) ∏

wQ∈Q∑

wD∈Dp (wQ|wD ;ψ ) p ( wD ;θD,k ) 2

7527\

67

Page 78: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

5.1.1 使用 EM 算法估计翻译模型与原始的翻译模型类似,参数可以通过 EM 算法[4]来估计。如图 5-1所示,

查询语句中的词变量wQ是可以观察到的,所以文档中某个特定位置的语言模型

p(wQ ;θD,k )可以就文档中的每个位置显式地估计。模型中,每篇文档的生成位

置参数 k 和生成每个查询语句中的词wQ的词wD都是隐变量。我们可以根据如下

的方法来估计相关参数。EM 算法 E 步:EM 算法是一种迭代的算法,下面我们来讨论第 i轮迭代的更新过程。在 E

步中,我们用现有的参数估计 ψ (i ) 来估计隐变量的后验分布。我们可以用当前的

翻 译 模 型 的 估 计 ψ (i ) 来 更 新 文 档 中 的 词 翻 译 到 查 询 语 句 中 的 词 的 分布

p(wD∨wQ , Q, D ;ψ (i ) , ϕD):p (wD|wQ , Q , D;ψ ( i) , ϕD )

68

Page 79: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

¿∑

kp (k|Q , D ;ϕD ) p (wQ , wD ;θD, k ,ψ (i ) )

∑w ' D

∑k

p ( k|Q , D; ϕd ) p (wQ ,wD' ;θD ,k ,ψ (i))

2

8528\

*

MERG

EFOR

MAT

(-)

其中:

p (wQ ,wD ;θD,k , ψ (i ))=p (wQ|wD ;ψ (i ) ) p (wD ;θD, k)

2

9529\

*

MERG

EFOR

MAT

(-)

我 们也需 要 对每一 个 查 询 语 句 、 文 档 对 , 更 新后验 位 置 分布

p(k∨Q ,D ;ψ (i ) , ϕD),如下所示:p (k|Q, D ;ψ (i ) , ϕD )

¿p ( k|Q ,D ;ϕ D )∏

wQ

∑wD

p (wQ , wD ;θD, k ,ψ ( i) )

∑k '

p (k '|Q , D ;ϕ D )∏wQ

∑wD

p (wQ , wD ;θD ,k ' ,ψ (i ))

3

0530\

*

MERG

EFOR

MAT

(-)

69

Page 80: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

这个式子决定了对于一个查询语句、文档对,文档中的每个位置的重要程度。

更有可能生成查询语句,即与查询语句更相关的位置,会在训练阶段被赋予更

高的权重,因此他们在翻译模型中就会比别的部分的影响力更大。EM 算法 M 步:在 M步,我们要通过调整参数最大化似然的期望。这里我们就会得到第 i+1

轮迭代的翻译概率:

p (wQ|wD ;ψ ( i+1) )=∑

(Q , D )∈Cp (wD|wQ ,Q , D ;ψ (i) , ϕD )

∑wD

'∑

(Q, D )∈Cp(wD∨wD

' , Q , D ;ψ (i ) , ϕ D)

3

1531\

*

MERG

EFOR

MAT

(-)

算法 2:位置对齐翻译模型的训练1:2:3:4:5:6:7:8:9:

10:11:12:

输入:训练数据(引文上下文,文档)对 T

文档段落划分数 K

迭代次数 iter_num

退出误差 iter_error

输出:翻译矩阵70

Page 81: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

13:14:15:16:17:18:19:20:21:22:23:24:25:26:27:28:29:30:31:32:33:

按照均匀分布,初始化翻译矩阵 p (wQ|wD ;ψ ( 0) )

for iter_index=1 to iter_num do for (C,D) in T do

for k ← 1 to K do

// 根据公式 5-4,计算位置参数 k 的后验分布 计算p (wD|wQ ,Q , D;ψ ( i) , ϕD)

// 根据公式 5-2,计算翻译概率的后验分布计算p (wD|wQ ,Q , D;ψ ( i) , ϕD )

end

// 根据公式 5-5,进行 M步计算计算p (wQ|wD ;ψ ( i) )

// 计算两个模型的似然误差 error ← diff(ψ (i−1 ) , ψ (i )) if error < iter_error then break endend

5.1.2 复杂度分析与传统的翻译模型相比,我们的位置对齐翻译模型有着更高的复杂度。 IBM

的翻译模型复杂度为O(MNLd Lq),其中 M 是 EM迭代的轮数,N 是训练集中查

询语句、文档对的数量,Ld和Lp分别是文档的长度和查询语句的长度。对位置71

Page 82: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

对齐翻译模型而言,我们需要对每个位置 k 计算tD和t Q的联合分布,所以复杂度

为O(MNKL p Lq),其中 K 是一篇文档中我们考虑的位置个数, Lp是每个位置周

围我们考虑的词汇数量。由于 KL p通常比Ld要大,所以位置对齐翻译模型的复

杂度要更高一些。如果我们考虑文档中的所有位置,那么计算代价将会非常昂

贵,因为此时K=Ld。所以我们可以将文档先切分成一些定长的彼此重叠的段

落,将切分后每个段落的中心位置当做一个备选位置,然后只考虑这个段落中

的词汇。这种处理方法和我们之前对文档中的主题分布的假设是一致的。我们

的方法的复杂度与段落之间的重叠程度有关。段落之间重叠程度越高,文档中

的词就会在越多的段落中出现,从而导致更高的复杂度。假设重叠长度为Lo,

一篇文档大概会有 Ld

Lp−Lo个段落。因此,原始的翻译模型和位置对齐翻译模型

的复杂度之比为:C (TM )

C(PTM )≈

MNLd Lq

MN LpLd

Lp−Lo

Lq

=1−Lo

Lp

3

2532\

*

MERG

EFOR

MAT

72

Page 83: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

这表明整个算法的时间复杂度由重叠长度和段落长度之比决定。在极端的

情况下,位置对齐翻译模型和原始的翻译模型复杂度是一样的,即相邻的段落

之间没有重叠时。如果重叠长度是段落长度的一半,那么复杂度就变成了原始

翻译模型的 2倍。我们可以通过选择合适的段落长度来避免复杂度的急剧增长。对于位置对齐的翻译模型而言,一旦我们通过 EM 算法得到需要的翻译矩阵

之后,我们就可以根据公式 3-3 来进行检索,对所有文档的具体排序方法参照

4.3节。

5.2 实验方法为了实验检验位置对齐翻译模型的效果,我们将段落长度分别设定为

500、1000、2000、3000,并将相邻段落之间的重叠长度设定为段落长度的

4/5。我们使用PTM (Lp)表示段落长度为Lp的实验设定,比如PTM (2000)即代表

段落长度为 2000 的位置对齐翻译模型。这里我们采用全局翻译模型(TM)的

最好结果作为我们的基准方法进行比较。我们分别通过 Dirichlet 平滑和 Jelinek-Mercer 平滑来使用集合语言模型对文

73

Page 84: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

档语言模型进行平滑,发现 Dirichlet 平滑在本任务中总是表现得更好。因此,

在本节中我们将仅呈现和讨论通过 Dirichlet 平滑得到的结果。由于本章试图评价只使用文本特征的检索方法的效果,所以我们不会将我

们的方法和其他的引文推荐方法[9,16,28]做对比,因为他们使用了特定域和链

接结构等其他方面的特征。

5.3 实验与结果5.3.1 整体结果

表 5-1 给出了不同对齐方法的基本实验结果。表的每一行展示了一种翻译模

型的结果,括号中的数字代表段落的长度。含有“*”的结果代表那种位置对齐

翻译模型相对原始翻译模型而言在统计意义上有显著性提高。从表中我们发现,

展示的所有使用翻译模型的结果都比语言模型要好。

表 5-6位置对齐模型基本实验结果模型名称 MAP

TM 0.5829

PTM (500) 0.5868*

PTM (1000) 0.5919*

74

Page 85: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

PTM (2000) 0.5865*

PTM (3000) 0.5844

我们可以看到位置对齐翻译模型的确提高的检索的效果。从结果中我们看

到,最优的段落长度大概是 1000。实际上,段落长度的选择是在翻译精度和覆

盖率之间的一种权衡。在位置对齐翻译模型中,我们假设查询语句是由某个位

置处的段落生成的。短的段落长度将限制查询语句中的词只能从较少的文档中

的词翻译得到。这就使得我们得到的翻译模型更加集中,每个查询语句中的词

只能从较少量的文档中的词翻译而来。另一方面,一个较长的段落包含了更多

的文档词汇,因此每个查询语句中的词可以从更多的文档中的词翻译而来。

5.3.2 平滑参数接下来,我们来看一下不同的平滑系数将对结果造成什么样的影响。μ控制

着集合平滑的权重,β 控制着自翻译的权重。不失一般性,我们这里只展示段落长度为 1000 的位置对齐翻译模型和不对

齐的原始翻译模型的结果。我们通过为这两个参数赋予不同的值来得到实验结

果,然后从中选取结果最好的一组参数设定。

75

Page 86: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

参数 β 用来控制使用文档的语言模型对基于翻译的查询语句似然的平滑权

重。如图 5-3,我们可以看到 PTM(1000)在较小的β设定下(大概 0.2)能获得更

好的效果,然而对于 TM 而言,β 在一个相对较大的值时(大概 0.4-0.6)获得

更 好 的 效 果 。 参 数 β 决定了自翻 译 在 检 索 过程中 的 重 要程度。 对 于

PTM(1000),β的最优值比较小意味着通过位置对齐训练的翻译模型更加准确,

只需要相对较少的文档语言模型的平滑。

图 5-16参数 μ调参结果

76

Page 87: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

图 5-17参数 β调参结果 对 Dirichlet 集合平滑参数 μ 而言,从图 5-2 中,我们发现 PTM 比 TM 需要更

多的集合平滑,PTM 结果最优时的 μ 为 2500-3500,TM 结果最优时的 μ 为

1000-2000。如同我们之前讨论的,备选的文档词汇数量少将导致相对较大的后

验概率 p(wD∨wQ , q , d)。因为这个原因,一些常见的词很可能会被赋予一个较

大的翻译概率(公式 5-5)。这将导致 PTM得到一个较大的常见词的生成似然,所

以它需要较多的集合平滑。

5.3.3 训练数据集的大小训练数据集在翻译模型的估计过程中扮演着重要的角色。在本节中,我们

将探索不同的训练数据集大小带来的影响。

77

Page 88: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

我们从 3.1节描述的数据集中随机选择出若干查询语句、文档对作为新的训

练数据集。通过不放回的抽样,我们得到了四个较小的训练数据集,分别含有

5000、10000、20000 和 50000 个查询语句、文档对。不同训练数据集下的结果

如表 6-2所示。

表 5-7训练数据集大小对结果的影响数据集

大小模型

TM PTM(500) PTM(1000) PTM(2000) PTM(3000)

5000 0.5711 0.5705 0.5726 0.5798 0.5741

10000 0.5722 0.5711 0.5733 0.5809 0.5797

20000 0.5736 0.5779 0.5865 0.5834 0.5763

30000 0.5823 0.5857 0.5899 0.5889 0.5842

从结果中可以明显看到,不同方法的结果都随着训练数据集变大而变好。

同时我们再一次的确定在大多数情况下,位置对齐翻译模型要比原始翻译模型

的表现好。另外一个有趣的发现是,当训练数据集变大时,最优的段落长度变小了。

当训练数据集有限时(5000 和 10000),最优的段落长度变为 2000。这可以看

作是翻译精度和覆盖率之间的一种权衡。当训练数据集很小时,翻译模型的覆

78

Page 89: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

盖率就会非常低,所以它可以通过增加更多的翻译词关系来提升结果。有着较

长段落长度的位置对齐翻译模型使用了较多的文档中的词来训练翻译模型,所

以它可以帮助扩展翻译模型,即使只有一个相对较小的训练集。然而,当训练

集变大时,翻译模型可以获得足够多的词之间的关系,这时翻译精度就变得比

覆盖率更加重要了。因此我们可以通过将查询语句与文档中较短但是更相关的

段落进行得到更好的效果。

79

Page 90: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

第6章 总结和未来工作6.1 结论

本文主要试图使用翻译模型处理引文推荐问题。提出了两种翻译模型的训

练方法:全局翻译模型、位置对齐翻译模型。引文推荐问题的挑战来自引文上下文和论文内容上使用的词汇是异质的,

而翻译模型可以很好的得到两种异质的语言的关联关系。通过在检索系统中使

用翻译模型,将大大提升检索效果。位置对齐翻译模型则使得估计得到的翻译模型更加准确且对噪音的容忍程

度更强。位置对齐翻译模型试图将查询语句和文档中高度相关的位置进行对齐,

然后在查询语句和这个位置附近的词汇上进行模型训练工作。实验表明全局翻译模型较语言模型而言,效果提升非常明显。而且使用文

章的摘要部分比使用文章的全文效果更好,因为使用文章全文将会使得训练得

到的翻译模型中包含较多噪音。这些噪音源于文章中并非任意部分都与引文上

下文高度相关,有些部分可能根本没有关系。而摘要部分则更能反映这篇文章80

Page 91: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

的主旨,和引文上下文的关系更强。位置对齐翻译模型相关实验也使我们再次确信,这种方法可以帮助我们得

到更加准确的翻译模型,在检索系统中这个模型将会更加有用。尤其,当训练

数据集很大时,这个模型能够表现的更好,因为翻译精度比覆盖率更能够影响

检索的效果。

6.2 未来工作

未来我们有以下几个有趣的方向可以进行尝试。首先,我们可以使用一些

其他的位置相关的语言模型,而不是使用经过随意切割得到的段落语言模型。

比如说,我们可以使用位置语言模型[15],这个模型中将按照与特定位置的距

离给词汇不同的权重。其次,模型中的参数选择是非常重要的,最优的参数选

择由训练数据集和检索阶段的文档集合来确定。一个有趣的问题就是能否根据

不同的数据集自动地得到最优参数。然后,在很多信息检索应用中,集合中的

文档包含很多域,如题目、摘要、锚文本、查询语句等。这其中的每一个域都

可以看做文档的一个特殊位置,但是每个域的重要性并不相同,所以我们可以

81

Page 92: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

为每个域设置一个重要程度的先验。于是将域信息和位置信息结合起来训练一

个更强大的翻译模型应该也是很有趣的一种尝试。最后,我们可以在其他的信

息检索应用中检验翻译模型的有效性,如问答系统、Web 检索等。

82

Page 93: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

参考文献

[1] A. Gleason, Measures on the Closed Subspaces of a Hilbert Space. J. of

Mathematics and Mechanics, 1957.[2] Berger, A., and Lafferty, J. Information retrieval as statistical translation. In

Proceeding of SIGIR’99 (1999), pp. 222-229.[3] Bestgen, Y. Improving text segmentation using latent semantic analysis: A

reanalysis of choi, wiemer-hastings, and moore (2001). Comput. Linguist. 32 (Mar.

2006), pp. 5-12.[4] Bishop, C. M. (2006). Pattern recognition and machine learning (Vol. 1, p. 740).

New York: springer.[5] Callan, J. P. Passage-level evidence in document retrieval. In Proceedings

SIGIR’94 (1994), pp. 302-310.[6] Croft, W. B., Metzler, D., & Strohman, T. (2010). Search engines: Information

retrieval in practice (p. 283). Reading: Addison-Wesley.[7] Fung, P., and Cheung, P. Mining very-non-parallel corpora: Parallel sentence and

lexicon extraction via bootstrapping and em. In Proceedings of EMNLP’04 (2004),

pp. 57-63.[8] Gao, J. He, X., and Nie, J.-Y. Clickthrough-based translation models for web search: from word models to phrase models. In Proceedings of CIKM’10 (2010), pp. 1139-1148.[9] He, Q. Pei, J., Kifer, D., Mitra, P., and Giles, L. Context-aware citation recommendation. In Proceedings of WWW’10 (2010), pp. 421-430.[10] Hearst, M. A., and Plaunt, C. Subtopic structuring for full-length document

access. In Proceedings of SIGIR’93 (1993), pp. 59-68.[11] Karimzadehgan, M. and Zhai, C. Estimation of statistical translation models

based on mutual information for ad hoc information retrieval. In Proceedings of

SIGIR’10 (2010), pp. 323-330.[12] Lavrenko, V., Choquette, M., and Croft, W. B. Cross-lingual relevance models. In

Proceedings of SIGIR’02 (2002), pp. 175-182.[13] Lv, Y., and Zhai, C. Positional language models for information retrieval. In

Proceedings of SIGIR’09 (2009), pp. 299-306.

83

Page 94: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

[14] Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information

retrieval (Vol. 1). Cambridge: Cambridge University Press.[15] McNee, S. M., Albert, I. Cosley, D., Gopalkrishnan, P., Lam, S. K., Rashid, A.

M., Konstan, J. A., and Riedl, J. On the recommending of citations for research

papers. In Proceedings of CSCW’02 (2002), pp. 116-125.[16] Metzler, D., Bernstein, Y., Croft, W. B., Moffat, A., and Zobel, J. Similarity

measures for tracking information flow. In Proceedings of CIKM’05 (2005), pp. 517-

524.[17] Microsoft Academic Search: http://academic.research.microsoft.com[18] Misra, H., Yvon, F., Cappe, O., and Jose, J. Text segmentation: A topic modeling

perspective. Inf. Process.Manage. 47 (July 2011), 528-544.[19] Murdock, V., and Croft, W. B. A translation model for sentence retrieval. In

Proceedings of HLT’05 (Stroudsburg, PA, USA, 2005), Association for Computational

Linguistics, pp. 684-691.[20] Nallapati, R. M., Ahmed A., and Xing, E. P. Joint latent topic models for text and

citations. In Proceedings of SIGKDD’08 (2008), pp. 542-550.[21] Nie, J.-Y., Simard, M., Isabelle, P., and Durand, R. Cross-language information

retrieval based on parallel texts and automatic mining of parallel texts from the web.

In Proceedings of SIGIR’99 (1999), pp. 74-81.[22] pdfminer: http://www.unixuser.org/~euske/python/pdfminer/index.html[23] P. Smolensky. Information processing in dynamical systems: foundations of

harmony theory, pp. 194-281, 1986.[24] Shaparenko, B. and Joachims, T. Identifying the original contribution of a

document via language modeling. In Proceedings of SIGIR’09 (2009), pp. 696-697.[25] Strohman, T., Croft, W. B., and Jensen, D. Recommending citations for academic

papers. In Proceedings of SIGIR’07 (2007), pp. 705-706.[26] Tang, J. and Zhang, J. A discriminative approach to topic-based citation

recommendation. In Proceedings of PAKDD’09 (2009), pp. 572-579.[27] Torres, R., McNee, S. M., and Abel, M. Enhancing digital libraries with

techlens+. In Proceedings of JCDL’04 (2004), pp. 228-236.[28] Wang, M., and Si, L. Discriminative probabilistic models for passage based

retrieval. In Proceedings of SIGIR’08 (New York, NY, USA, 2008), ACM, pp. 419-426.[29] Xu, J., and Croft, W. B. Query expansion using local and global document

analysis. In Proceedings of SIGIR’96 (1996), pp. 4-11.[30] Xue, X., Jeon, J., and Croft, W. B. Retrieval models for question and answer

84

Page 95: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

archives. In Proceedings of SIGIR’08 (2008), pp. 475-482.[31] Zhao, B., and Vogel, S. Adaptive parallel sentences mining from web bilingual

news collection. In Proceedings of ICDM’02 (2002), pp.745-.[32] Zhou, D., Zhu, S., Yu, K., Song, X., Tseng, B. L., Zha, H., and Giles, C. L.

Learning multiple graphs for document recommendations. In Proceedings of

WWW’08 (2008), pp. 141-150.[33] Zobel, J., Moffat, A., Wilkinson, R., and Sacks-Davis, R. Efficient retrieval of

partial documents. Inf. Process. Manage. 31 (May 1995), pp. 361-377.

85

Page 96: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

附录

1. 式 2-11 的推导

式 2-10 表示了在翻译模型的框架下,一个查询语句由一篇文档翻译生成的

似然:

p (Q|D )=ψ ( m|D )nm ∑

a1=1

n

…∑am=1

n

∏j=1

m

t (q j|da j ) .

上式首先考虑已知文档 D 的情况下,获得一个长度为 m 的查询语句的概率

ψ (m∨D) ,然后,枚举查询语句中的每个位置的词汇由文档中的某个位置的词

汇翻译生成。得到位置对齐的结果后,将翻译概率连乘就得到这种对齐方式下

的似然。对于所有对齐方式求取平均,即得到上式。下面我们对其进行简单的

代数变换,得到式 2-11:我们将第一个和号拆开,得到:

p (Q|D )=ψ ( m|d )nm {[∑a2=1

n

…∑am=1

n

∏j=2

m

t (q j|da j )]t ( q1|d1 )+[∑a2=1

n

…∑am=1

n

∏j=2

m

t (q j|da j )] t ( q1|d2 )+…+[∑a2=1

n

… ∑am=1

n

∏j=2

m

t (q j|da j) ] t (q1|dn )}

86

Page 97: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

¿ψ (m|d )

nm [∑a2=1

n

…∑am=1

n

∏j=2

m

t (q j|daj )] [t (q1|d1 )+ t (q1|d2)+…+t ( q1|dn ) ]

其中:t ( q1|d1 )+t ( q1|d2 )+…+ t (q1|dn )=∑

wt (q1|w ) countD(w)

上式中的 countD (w) 表示文档 D 中词 w 的出现次数,根据语言模型的定义,

可知:l (w|D )=countD (w)/n,所以有:

p (Q|D )=ψ ( m|d )nm−1 [∑a2=1

n

… ∑am=1

n

∏j=2

m

t (q j|da j) ][∑wt (q1|w ) l(w∨D)]

如上,对每一个和号展开,即可得到:

p (Q|D )=ψ (m|d )∏j=1

m

∑w

t ( q j|w ) l(w∨D)

即式 2-11。

2. EM 算法的推导

首先,根据 EM 算法的步骤,在 E步,我们需要计算隐变量 k 的后验分布。

在这里,为了表述的方便性与简洁性,我们使用 x 表示一个样本,即一个引文、

文档对(C,D)。那么我们的似然函数可以写为:p ( x )=∑

kp ( x|k ) p (k )

其中 p ( x|k ) 即我们已知这一个样本的位置参数后的似然值,其计算方式如

87

Page 98: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

下:p ( x|k )= ∏

wQ ∈Q∑

wD ∈Dp ( wQ|wD ;ψ ) p(wD ;θD,k )

位置参数 k 的后验分布如下:

p (k|x )=p (k ) p (x∨k )

∑l=1

K

p ( l ) p(x∨l)

其中,p(k) 为上一轮迭代得到的后验值,将 p(x∨k) 代入上式,即可得:

p (k|x )=p (k ) ∏

wQ∈Q∑

w D∈Dp (wQ|wD ;ψ ) p (wD ;θD, k)

∑k ‘=1

K

p(k ‘ ) ∏wQ ∈Q

∑wD ∈D

p ( wQ|wD ;ψ ) p(wD ;θD,k ‘)

即得式 5-4。同理,我们需要计算另一个隐变量 wD 的后验分布,只需要枚举位置参数 k

即可:

p (wD|wQ ,Q , D;ψ ( i) , ϕD)=∑

kp (k|Q , D ;ϕD ) p (wQ , wD ;θD, k ,ψ (i ) )

∑w ' D

∑k

p ( k|Q , D; ϕd ) p (wQ , wD' ;θD ,k ,ψ (i))

即得式 5-2。在 M步,我们对参数 p (wQ|wD ;ψ ( i+1) ) 的估计,需要使用到wD的后验分布,

然后在整个训练集上进行统计即可得到结果:

p (wQ|wD ;ψ ( i+1) )=∑

(Q , D )∈Cp (wD|wQ ,Q , D ;ψ (i) , ϕD )

∑wD

'∑

(Q, D )∈Cp(wD∨wD

' ,Q , D ;ψ (i ) , ϕ D)

88

Page 99: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

即得式 5-5。

89

Page 100: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

攻读硕士学位期间的科研成果

发表论文[1] Lu, Y., He, J., Shan, D., & Yan, H. (2011, October). Recommending citations with translation model. In Proceedings of the 20th ACM international conference on Information and knowledge management (pp. 2017-2020). ACM.[2] He, J., Nie, J. Y., Lu, Y., & Zhao, W. X. (2012, January). Position-Aligned translation model for citation recommendation. In String Processing and Information Retrieval (pp. 251-263). Springer Berlin Heidelberg.

[3] 陈翀,罗鹏程,刘晓兵,陆炀. 网络资源层次组织规律定量研究[J]. 中国图书馆学报,2012,6(8):72-80.

[4] 陆炀,陈翀,何靖等. 基于翻译模型的引文推荐[J]. 中国科技论文在线精品论文,2013,6(4):371-376.

[5] Yang Lu, Xin Zhao, Hongfei Yan (2013, June). A Metric Learning based approach for evaluating time series similarity. In Proceedings of the 14th International Conference on Web-Age Information Management.

90

Page 101: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

致 谢

感谢闫宏飞老师,初入燕园,是您和蔼谦恭的引领我踏入从未接触过的研究方向。您对学生关爱有加,不仅在学术上给予我们指点,也在生活上给予我们帮助。您儒雅的学者风范令人难忘。感谢李晓明老师,您深厚的学术造诣令学子敬仰,您温和的性格令学子倍

感温暖。三年的时间,从您身上不仅学到了专业知识,亦学习到了如何处事待人。在完成毕业设计的过程中,您对我的谆谆教诲让我受益匪浅。感谢彭波老师,您的课程对我这样重未接触过搜索引擎的学子而言,无异

于雪中送炭,您在课堂上不仅告诉教导我们知其然,还引导我们知其所以然。感谢谢正茂老师,您若干年来管理的实验室机群是我们学习、实验、开发

的必要环境,没有您的日常管理维护,我们的知识将都是高屋建瓴,而无用武之地。感谢何靖师兄,你对所研究问题的本质有着深刻的理解,并且能够对我这

种初学者进行深入浅出的讲解,让我明白其中的精要所在。我在搜索引擎和数据挖掘这个方向上的第一份成果,离不开你的帮助,你的指导,你的关切。是

91

Page 102: sewm.pku.edu.cnsewm.pku.edu.cn/.../MasterThesis/thesis-LUYang_v20130514.docx  · Web view引文推荐系统的任务就是对书籍文献中的文字片段给出合适的备选引用文献供作者和读者参考,无疑这对于文字工作者而言

北京大学硕士论文-基于翻译模型的引文推荐

你让我明白了何为学术,学术应该如何做,说你就是我在学术研究方面的领路人,并不为过。感谢赵鑫师兄,你对学术的热情和钻研精神令我敬佩,三年的学习生活中不仅向你请假了很多学术上的知识,也让我感受到了治学严谨求实之精神。感谢毛先领师兄、严睿师兄、单栋栋师兄、樊凯师兄、陈日闪师兄、树柏

涵师兄、刘晓兵师兄,你们很多已经毕业,很多即将毕业,在天网组的这三年学习生活中,缺少你们,就会缺少很多欢乐,一起参加组内活动,一起聚餐,一起准备新年晚会节目,其中的欢声笑语将永远萦绕耳畔。感谢袁文清、王锦鹏,我们都是 2010级的学生,一起完成入学手续,一

起上课,一起做课程设计,一起商讨期末考试,你们给了我很多帮助,我们一起度过了人生中很重要的三年研究生时光。感谢张旭东、李铄、刘亚宁、尹珺、过岩巍、吴悦昕、江翰。感谢网络实验室,感谢天网组。感谢杨晓勇、卢善波、申林,我们都是从外校而来,进入燕园就在一间屋

子住了三年时间,感谢北京大学 42楼 334室。感谢余亦峰、陈峰宏,一起找工作的日子里,探讨各种面试题目的时刻令我受益匪浅。感谢我的父母和亲人,感谢所有陪伴我一路走来的兄弟姐妹,朋友伙伴。

92