外部S3表上的Hive查询非常慢

时间:2018-02-23 03:15:29

标签: hadoop amazon-s3 hive amazon-emr parquet

我们的数据集在s3(镶木地板文件)中,格式如下,数据根据行号分为多个镶木地板文件

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

使用

在其上创建配置单元表
CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';

总共有22000个镶木地板文件,文件夹大小近300GB。当我在Hive中对此表运行计数查询时,需要6个小时才能返回结果,即近70亿条记录。我们怎样才能让它更快?我可以在表上创建分区或索引,或者这是从s3中提取数据时通常需要的时间。任何人都可以提出建议,这里有什么问题。

感谢。

0 个答案:

没有答案
相关问题