一种快速准确的文本文档相似性比较方法

时间:2013-07-09 13:48:21

标签: performance algorithm similarity tf-idf

我需要比较两组文档(例如,一组可能有1000个文档),并确定第二组中哪个文档与第一组中的某个文档最相似。到目前为止,我使用TF / IDF和余弦相似性,但我需要更快更准确的东西,如TF / IDF :)你能建议我更快的算法或改进TF / IDF时间吗?

1 个答案:

答案 0 :(得分:1)

这取决于您尝试匹配的差异类型。我所知道的最快的方法是使用与minHash匹配的木瓦:http://www.stanford.edu/~ashishg/amdm/handouts/scribed-lec10.pdf http://en.wikipedia.org/wiki/MinHash

用于查找近似/完全相同的副本,而不是部分类似的文档。