存储许多具有大相似性的文本文件

时间:2018-01-16 20:05:31

标签: web-scraping compression storage object-storage

我需要存储数百万个HTML文件,每个文件大约100kB(30kB gzip)。这些文件属于少数几个组。每个组中的文件都有大量相似的块。

我想紧凑地存储这些文件(比单独的gzip好得多)并通过密钥检索它们。我会随着时间的推移插入新文件,包括具有新结构的文件。我对搜索文件不感兴趣。

是否存在存储这些文件的现有解决方案?例如,在对象库之上的专用服务。

自定义解决方案的可能方法有哪些?我正在考虑将文件存储在1000个gzip压缩组中,并在数据库中维护索引。

编辑:我会不断添加文件。我还想每隔几周按插入顺序流出所有文件。

3 个答案:

答案 0 :(得分:2)

稍微,在框外答案:将文件放在git存储库中。显然,它会将大块相似的字节压缩在一起。

答案 1 :(得分:2)

您可能希望将一千个文件的组连接到单个文件中进行gzipping,如果它们在串联中彼此相距32K字节,则应该利用公共块。您还可以尝试zstd,它具有更大的字典大小,并且肯定能够利用公共块。

您可以查看gzlog,以便将新数据快速附加到gzip流中。

答案 2 :(得分:1)

如果您不需要定期访问单个文件,可以执行以下操作:

创建一个“偏移查找”文件,列出您的文件名和大小。将所有文件连接成一个巨大的huge.txt文件。压缩huge.txt并将其与lookup.txt一起存储

甚至在需要其中一个文件的情况下,解压huge.txt,使用lookup.txt查找你的文件中的huge.txt内部的起始位置以及它有多少字节,然后从那里提取它。