sorting - 删除非常大的.text文件中重复行的最快方法

删除非常大的.text文件中重复行的最快方法

时间：2010-09-20 13:36:14

标签： sorting file duplicates

从1 GB以上的大型.txt文件中删除重复行的最佳方法是什么？

因为删除一个接一个的重复项很简单，我们可以将此问题转换为仅排序文件。

假设我们无法将整个数据加载到RAM ，因为它的大小。

我只是等着从一个唯一的索引字段（我先前将文件行加载到表格）中检索SQL表中的所有记录并且想知道，确实存在加速它的方法。

2 个答案:

答案 0 :(得分：2)

您可以尝试bloom filter。虽然你可能会得到一些误报（虽然你可以以更多的处理成本任意接近0％）但它应该非常快，因为你不需要比较甚至对每行进行log（n）搜索看到。

答案 1 :(得分：-1)

一次读取两个字节的文件。如果这两个字节是一个新行（\ r \ n），那么标记你有一个新行。现在阅读接下来的两行，如果是新行，则保留标志但删除该新行（当我说删除时，意味着省略将新行写入临时文件）。现在，如果您遇到另一个新行，它将再次删除，但如果没有，则重置该标志。然后将临时文件的内容复制到原文中，然后就完成了。

如果您正在寻找单个（\ n），您也可以一次读取1个字节。或者您可以一次读取1 KB的文件，然后在内存中执行这些操作（这会更快）。