匹配2个文本文档的最佳方法

时间:2015-01-06 15:48:17

标签: tf-idf textmatching

我正在尝试制作这样一个软件,使2个文本文档智能地类似于检查文本匹配的程度,而不是像DIFF 我在Google上搜索了一下,我发现了两件事,就是Graph& TFIDF。

但我对它们两者感到困惑,我不知道哪一个更好&还有其他任何匹配文本文档的技术

1 个答案:

答案 0 :(得分:0)

您是否通过余弦距离测量文档相似度? 余弦相似度衡量内积空间的两个向量之间的相似性,衡量它们之间角度的余弦http://en.wikipedia.org/wiki/Cosine_similarity

如果您有文档A和B,则可以为文档A和B创建两个术语向量。术语向量A将包含文档A的单词以及文档的每个单词的频率。而不是原始字频率,你可以TF-IDF加权。对于文档B也是如此。一旦有了术语向量A和B,就可以计算术语向量A和B的余弦相似度,它代表文档A和B. 在创建术语向量之前,您需要执行一些预处理任务,例如过滤停用词。