对Lucene进行分类可获得更好的精度

时间:2014-12-02 14:22:06

标签: lucene machine-learning classification information-retrieval heuristics

我有一个包含500万个条目的Lucene索引。我使用索引文档的“扭曲”片段查询此索引。然后,我得到前1个文档及其分数。从这些数据中,我需要判断返回的文档是否正确。我的第一种方法是使用返回文档的id以及分数来训练随机森林(这意味着,对于每个搜索到的片段,我将训练实例插入到包含返回数据的随机森林中)。然而,虽然它对某些文件非常有效,但对其他文件却表现不佳。

对于每个文档,针对Lucene索引的查询已经能够为某些片段找到正确的文档,但对于其他文档却没有(这使得我100%回忆,但精度较低)。

如何设置有效的启发式方法来判断哪些结果是正确的?

1 个答案:

答案 0 :(得分:0)

如果我正确地提出了您的问题,您想要检索其扭曲形式是当前查询的文档。这种情况类似于近似重复检测问题,其通常用字级n-gram(称为带状疱疹)来解决。 Jaccard系数。带状疱疹是确定这一点的有效方法。有关详细信息,请参阅Andrei Broder paper关于近似重复文档检测的内容。

相关问题