如何使用压缩的gzip获取存储在hdfs上的文件的原始内容?

时间:2017-03-01 13:07:00

标签: hadoop

有没有办法能够逐字节地读取存储在hadoop hdfs上的文件的原始内容?

通常情况下,我提交的-input param流媒体作业指向.gz文件(如-input hdfs://host:port/path/to/gzipped/file.gz)。

我的任务逐行接收解压缩输入,这是 NOT 我想要的。

1 个答案:

答案 0 :(得分:0)

您可以使用相应的Hadoop配置初始化FileSystem

FileSystem.get(conf);

它有一个方法open原则上允许你读取原始数据。