python - 从BIG文本文件中删除重复项

如果你不能只在亚马逊上启动一个具有足够内存的实例来保存RAM中的所有内容，那么这就是我要使用的策略：

步骤1 - 遍历并为每一行生成校验和/哈希值。我可能会使用SIPHASH。将这些输出到文件。

第2步 - 对siphash值的文件进行排序，并丢弃任何只有一个条目的文件。将结果输出为一组哈希值＆amp;比赛次数。

第3步 - 阅读文件。重新生成每行的哈希值。如果它是一条匹配的行，请在内存中保留它。如果另一个已经在内存中具有相同的哈希值，则比较以查看这些行本身是否匹配。输出“匹配”，如果为真。如果您已经看到所有N行具有相同的哈希值并且它们不匹配，请继续处理该记录。

此策略取决于重复次数仅占总行数的一小部分。如果情况并非如此，那么我会使用其他策略，比如分而治之。