信息检索概率模型

时间:2013-09-10 10:40:38

标签: algorithm nlp information-retrieval

您知道在哪里可以找到基于概率模型编程信息检索系统的源代码(任何语言)吗?

我试图在网上搜索并找到一个名为bm25或bmf25的算法,但我不知道它是否有用。

基本上我试图比较3种IR算法的性能:向量空间模型,布尔模型和概率模型。现在我已经找到了向量空间和布尔模型。根据结果​​,我们需要使用其中最好的一个来开发问答系统

提前致谢

2 个答案:

答案 0 :(得分:1)

如果您正在寻找已实施BM25的红外引擎,您可以尝试 Terrier IR Platform

语言是Java。您可以使用引擎本身,也可以查看源代码以了解BM25或其他术语加权模型的实现。

答案 1 :(得分:0)

这里的混淆是有几种概率IR模型(例如2-Poisson,二元独立模型,语言建模变体),所以问题是模棱两可的。但根据我的经验,当人们说“概率模型”时,他们通常意味着由于Robertson和Sparch-Jones而导致二元独立模型的一些变体。 BM25(非常粗略地)近似于这个模型,这就是我在这种情况下使用的。 Lemur工具包中包含BM25的规范实现。参见:

http://www.lemurproject.org/doxygen/lemur/html/OkapiRetMethod_8hpp-source.html