machine-learning - 使用同义词记录文档的相似性

我有一堆文件，其中一些文件是其他文件的副本，其文字混乱，一些文字被他们的同义词取代。下面提到的是一个句子的例子：

第1条（原件） ：我在镇上买了John Snow，在Kingslanding五金店购买修理破损的拖拉机。斯诺一生养大豆，他的父亲和他们的父亲也是如此。我问他关于他在农场的生活。

第2条（重复） ：我在购买的城市中获得了John Snow，以便在Kingslanding制造硬件以修复损坏的电动拖拉机。雪有大豆蚕豆完整的生命已被治疗，如其父亲和他们的父亲。我问他关于农业公司的生活。

第3条（重复） ：我带着John Snow进入了在Kingslanding硬件仓库购买的城市修理破损的拖拉机。斯诺一生都在培育大豆，就像父亲和父母一样。我向他询问了它在农场的生活。

第4条（重复） ：与约翰斯诺市中心相比，我采取了自己的方式来购买物品以维修破损的拖拉机。雪就像他/她的父亲和他们的父亲一样培养了整个生命。我质问他与农场的生活。

我想做一个文档相似性，最终在同一组中标记所有这些文档。任何建议以及示例或教程将不胜感激。

使用同义词记录文档的相似性

2 个答案: