performance - 一种快速准确的文本文档相似性比较方法 - Thinbug

一种快速准确的文本文档相似性比较方法

时间：2013-07-09 13:48:21

标签： performance algorithm similarity tf-idf

我需要比较两组文档（例如，一组可能有1000个文档），并确定第二组中哪个文档与第一组中的某个文档最相似。到目前为止，我使用TF / IDF和余弦相似性，但我需要更快更准确的东西，如TF / IDF :)你能建议我更快的算法或改进TF / IDF时间吗？

1 个答案:

答案 0 :(得分：1)

这取决于您尝试匹配的差异类型。我所知道的最快的方法是使用与minHash匹配的木瓦：http://www.stanford.edu/~ashishg/amdm/handouts/scribed-lec10.pdf http://en.wikipedia.org/wiki/MinHash

用于查找近似/完全相同的副本，而不是部分类似的文档。