帮助bm25解释。小指数中的稀有单词/小指数中的常用单词

时间:2011-08-18 04:32:04

标签: algorithm search indexing full-text-search sphinx

我需要一些帮助来理解bm25相关性排名(即时通讯使用sphinx)。如果有一个小索引(非常小的说法),这是否会对文档中出现的常见词的相关性产生负面影响?假设您在索引中共有4篇文章(非常小,是的)....标题为:“挪威”,“加拿大股市再次反弹”,“加拿大”,“越南”。指定的字段是标题和正文。让我们说查询是:“加拿大”。基本上,“加拿大”出现了很多(降序)...我。 “加拿大”ii。 “加拿大股市再次反弹”iii。 “挪威”(在本文中做到了)。 bm25不考虑词频吗?我读到了索引中经常出现的单词,文档实际上取消了排名。顺便说一句,当我使用proximity_bm25搜索sphinx时......“加拿大股市再次反弹”的排名略高于“加拿大”....好奇:p

1 个答案:

答案 0 :(得分:0)

their blog上有关于BM25的Sphinx实现的一些具体信息。请注意,该解释开始“BM25 ...仅取决于匹配关键字的频率。”度量本身主要基于TF(术语频率)和IDF(逆文档频率);即整个语料库中术语的频率和包含该术语的(反)数量的文档。公式在参考链接中给出。

相关问题