从结果中排除类似文档(重复)

时间:2015-08-12 10:22:30

标签: elasticsearch levenshtein-distance

我存储了一些新闻来源的所有文章。一篇来自例如新闻的新闻文章Cnn.com,可能会被其他人转发。实际上,我最终多次保存相同的文章。

如果我搜索“特斯拉”,我可能会得到3篇相互之间相差90%的文章。我可以使用Levenshtein distance在我的应用中比较和过滤重复项,但我宁愿使用ES过滤它。

我可以说give me all articles matching WORD, but only return the first if other hits are more than 90% equal to the first吗?

干杯, 马丁

1 个答案:

答案 0 :(得分:1)

如果您真的需要将所有这些记录保存在ES中(而不是在索引之前使用levenshtein 过滤掉),那么您可能正在寻找{{ 3}}字段崩溃。

另请查看top hits aggregations