创建文档比较软件

时间:2012-05-12 19:43:53

标签: java php python

我想创建一个应用程序,通过读取两个文档中的文本并进行比较,可以确定是否在两个文档之间复制了某些文本。我想知道是否有人试图这样做,以及处理相同的最佳方式是什么。如果涉及机器学习和自然语言处理:达到什么水平?

2 个答案:

答案 0 :(得分:1)

有些技术完全依赖于集理论概念

尝试http://en.wikipedia.org/wiki/W-shingling以获得良好的开端。

答案 1 :(得分:0)

我相信Copyscape使用 4-gram 来帮助确定唯一性。

这些字符串称为N-Grams

但是,another SO answer以字符为基础与language independent algo comparing bi-grams相关联。它已经在Java中实现,这将有助于节省时间。

相关问题