信息检索中的部分规范

时间:2013-12-16 17:53:55

标签: information-retrieval machine-language

你好,我在Information Retrieval上有一个作业,我无法实现如何创建那个部分规范,我的意思是这里的单词的价值:http://nlp.stanford.edu/IR-book/html/htmledition/finite-automata-and-language-models-1.html

= 0.2

a = 0.1

青蛙= 0.01 ......等等。如果有人解释如何计算这些值,我将感激不尽。

了解语言模型!

a)解释这个想法!

b)考虑以下文件集:

D1:今天天气晴朗。阳光柏林!成为或不成为。

D2:她今天在柏林。她是一个阳光明媚的女孩。柏林总是令人兴奋!

为每个文档计算相应的Unigram语言模型!假设 跨模型的停止概率(等于0:2)。使用这些模型 给出查询\阳光柏林的文件排名“!

1 个答案:

答案 0 :(得分:0)

这些单词的值不在页面上计算。这些是从模型定义的统计数据中获得的。

例如,如果你看下面的图片,有两种不同的模型,每个单词的概率不同。作为模型的设计者,您需要自己定义概率。

enter image description here

如果您无法理解语言模型是什么,这是一个简单的例子:

想象一下,住在伦敦的人有一种语言模式M1,居住在纽约的人有其他语言模型M2。

根据一些统计数据,我们知道伦敦的人使用“阳光”这个词比纽约人的两倍(因为任何原因),所以在M1中,使用“晴天”的概率为0.04,而在M2“晴天” = 0.02。对其他文本电视,杂志等进行裁判,我们可以定义伦敦(M1)和纽约(M2)使用其他单词的“概率”,并创建如上所示的表格。

现在我们有句“她是一个阳光明媚的女孩”,我们不知道它来自伦敦或纽约的人。

参考表格我们可以猜测这更可能来自伦敦人(M1),因为他们更多地使用这个词!

相关问题