lucene:自定义得分

时间:2016-01-06 23:17:42

标签: lucene

我正在创建表格的简单文档索引:

[paragraph-id] < numeric field (monotonically increasing ID value) [paragraph-text] < medium (~500 word) text field

大约有100K个文档,它们由多线程索引器编制索引,该索引器对文档进行分割和征服,因此它们插入索引的paragraph-id顺序是随机的。

我的搜索系统的语义是这样的&#34;相关性&#34;或&#34;得分&#34; paragraph-id(较大的paragraph-id更相关)仅限 文件。我想完全忽略Lucene内部计算的&#34;得分&#34;对于基于标准指标(如TF或IDF)的文档。

实现这一目标的最佳途径是什么?

我的&#34;哑巴&#34;解决方法是使用巨大的IndexSearcher::search(Query q, Filter f, int max, Sort s)值(100K,以覆盖所有文档)调用搜索API max并传递分拣机以按paragraph-id对结果进行排序。

Lucene 3.0.2版(我知道它已经老了,但这不应该对这个问题很重要)

0 个答案:

没有答案