在拆分tar.gz后将.tar.gz转换为序列文件

时间:2015-08-08 14:07:51

标签: hadoop mapreduce compression hadoop2

是否可以使用map reduce将1 .tar.gz文件转换为1个序列文件? 到目前为止,遇到了所有正在执行此操作的解决方案,而没有拆分tar.gz或本地文件系统。

http://qethanm.cc/projects/forqlift/examples/

1 个答案:

答案 0 :(得分:0)

想象一下你的gzip压缩文件存储在HDFS中,其大小为1 GB。 HDFS块大小为 64 MB,文件将存储为16个块。但是,为每个块创建拆分不会 因为无法在gzip流中的任意点开始阅读,所以工作正常 因此,地图任务无法独立于其他任务读取其分割。该 gzip格式使用DEFLATE存储压缩数据,DEFLATE存储数据 作为一系列压缩块。问题是每个块的开始不是 以任何方式区分,允许读者定位在任意点 流进入下一个块的开头,从而使自身同步 与流。因此,gzip不支持拆分。

相关问题