Hive从压缩的bz2文件中读取外部表

时间:2014-04-02 09:52:04

标签: amazon-s3 hive emr bzip2 compression

这是我的情景。 我在亚马逊s3中有bz2文件。在bz2文件中,存在扩展名为.dat,.met,.sta的文件。我只对带有* .dat扩展名的文件感兴趣。您可以下载此samplefile来查看bz2文件。 />

create external table cdr (
   anum string,
   bnum string,
   numOfTimes int
)
row format delimited
    fields terminated by ','
    lines terminated by '\n'
location 's3://mybucket/dir'; #the zip file is inside here

问题在于,当我执行上述命令时,某些记录/行存在问题。

1)还包括来自* .sta和* .met等文件的所有数据 2)还包括文件名的元数据。

我唯一的想法就是展示INPUT_ FILE _NAME。但是,所有记录/行都具有相同的INPUT_ FILE _NAME,即filename.tar.bz2。

欢迎任何建议。我现在完全迷失了。

0 个答案:

没有答案