gzip文件从一个文件系统到另一个最快的方式

时间:2014-01-18 18:23:01

标签: performance gzip

我需要将2,000个文件(30 TB未压缩数据)从文件系统1传输到文件系统2(使用gzip压缩时减少到~8 TB),带宽为100 MB /秒。

是否有一个命令,我可以直接将gzip压缩文件写入新的文件系统,这样我就不必传输30 TB的数据,而只是将gzip压缩文件复制到新系统中?

这个命令会起作用,还是有其他选择?

gzip -c /my/dir/foo.txt > /my/new/filesystem/foo.txt.gz

换句话说,这个命令只会尝试复制压缩的gz文件,而不是整个文件,对吗?所以在/ my / new / filesystem /我的文件中将使用1/3的空间而不是原始的/ my / dir /?

数据位于高性能群集中,因此我可以并行传输它们,但我不确定要使用多少并行核心。如果我使用2,000个核心,我可能无法获得更高的速度,因为处理器速度比100 MB /秒带宽更快。

我正在寻找gzip命令,以及一个良好的并行化策略来尽可能快地传输数据。

注1。新服务器(文件系统)连接到群集,它通过100 MB /秒连接与旧文件系统进行通信。我所说的Cluster是一个可以并行提交多个作业的计算中心(注2中的更多详细信息)。我将数据传输到的新服务器(即我称之为新文件系统)是戴尔服务器,PE R515,带有多达12个热插拔硬盘和2个有线硬盘,LED和AMD Opteron 42XX Procs,4TB 7.2K RPM近线SAS 6Gbps 3.5英寸热插拔硬盘。更多信息:http://mindmeeting.blogspot.com/2014/01/server-information.html。 OS是centOS 6。

注2。这是我对集群架构的一样多的信息。原始集群由512个Dell PowerEdge M600刀片构建,分布在32个M1000机箱中,每个机箱配备双Xeon E5410 2.3Ghz四核处理器,总共4096个核心。这些节点中的每一个都承载32 GB RAM以及DDR Infiniband和Gb以太网连接。它已经扩展到下面的架构,增加了专用访问,交互式,专业和服务系统以及几组额外的计算节点。群集映像基于RHEL 5,共享存储托管在多个nfs(即:主目录)和两个lustre实例(分别是高性能临时和数据)上。

1 个答案:

答案 0 :(得分:2)

一些想法:

1)我会基准测试" rsync"压缩,因为它是可重启的。你也可以做多个" rsyncs"并行。

2)此外,磁盘是否连接到SAN?您可以将新文件系统挂载到现有主机,然后卸载并重新挂载到新主机吗?

3)另外,永远不要低估充满磁带的卡车的带宽!如果您有可用的LTO,其带宽高于您的网络。

有关您系统的一些其他信息会有所帮助 - 例如SAN,基础设施,服务器之间的距离,是否可以临时添加网络接口......