lucene - 对Lucene进行分类可获得更好的精度

我有一个包含500万个条目的Lucene索引。我使用索引文档的“扭曲”片段查询此索引。然后，我得到前1个文档及其分数。从这些数据中，我需要判断返回的文档是否正确。我的第一种方法是使用返回文档的id以及分数来训练随机森林（这意味着，对于每个搜索到的片段，我将训练实例插入到包含返回数据的随机森林中）。然而，虽然它对某些文件非常有效，但对其他文件却表现不佳。

对于每个文档，针对Lucene索引的查询已经能够为某些片段找到正确的文档，但对于其他文档却没有（这使得我100％回忆，但精度较低）。

如何设置有效的启发式方法来判断哪些结果是正确的？

对Lucene进行分类可获得更好的精度

1 个答案: