压缩几乎相同的大文件

时间:2018-10-23 20:51:50

标签: compression large-files

我有一堆大型HDF5文件(大约1.7G),它们共享许多内容–我猜每个文件的数据中有95%以上是彼此重复的。

我想将它们压缩为存档。 我第一次尝试将GNU tar-z选项(gzip)一起使用失败:当归档达到50G(可能是sysadmin施加的文件大小限制)时,该过程终止。显然,gzip无法利用这种设置下的文件几乎相同的事实。

压缩这些特定文件显然不需要非常花哨的压缩算法,但是需要 veerery 患者。 有没有一种方法可以使gzip(或其他工具)检测到这些重复的大斑点,并避免在存档中重复这些斑点?

1 个答案:

答案 0 :(得分:2)

听起来像您需要的是二进制diff程序。您可以为此搜索google,然后尝试在其中两个之间使用二进制差异,然后压缩其中之一和结果差异。您可能会喜欢上所有的组合,然后选择最小的组合进行压缩,然后只发送一份原始文件。