使用同义词记录文档的相似性

时间:2014-06-19 04:15:28

标签: machine-learning nlp scikit-learn stanford-nlp information-retrieval

我有一堆文件,其中一些文件是其他文件的副本,其文字混乱,一些文字被他们的同义词取代。下面提到的是一个句子的例子:

  

第1条(原件) :我在镇上买了John Snow,在Kingslanding五金店购买修理破损的拖拉机。斯诺一生养大豆,他的父亲和他们的父亲也是如此。我问他关于他在农场的生活。

     

第2条(重复) :我在购买的城市中获得了John Snow,以便在Kingslanding制造硬件以修复损坏的电动拖拉机。雪有大豆蚕豆完整的生命已被治疗,如其父亲和他们的父亲。我问他关于农业公司的生活。

     

第3条(重复) :我带着John Snow进入了在Kingslanding硬件仓库购买的城市修理破损的拖拉机。斯诺一生都在培育大豆,就像父亲和父母一样。我向他询问了它在农场的生活。

     

第4条(重复) :与约翰斯诺市中心相比,我采取了自己的方式来购买物品以维修破损的拖拉机。雪就像他/她的父亲和他们的父亲一样培养了整个生命。我质问他与农场的生活。

我想做一个文档相似性,最终在同一组中标记所有这些文档。任何建议以及示例或教程将不胜感激。

2 个答案:

答案 0 :(得分:0)

Descartes是一个用于满足/文档级相似性的包: http://cogcomp.cs.illinois.edu/page/software_view/Descartes

您可以比较两个文档是否足够接近。

答案 1 :(得分:0)

这似乎是Locality Sensitive Hashing的教科书案例。 查看this SO thread