Question

我们的数据集在s3（镶木地板文件）中，格式如下，数据根据行号分为多个镶木地板文件

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

使用

在其上创建配置单元表

CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';

总共有22000个镶木地板文件，文件夹大小近300GB。当我在Hive中对此表运行计数查询时，需要6个小时才能返回结果，即近70亿条记录。我们怎样才能让它更快？我可以在表上创建分区或索引，或者这是从s3中提取数据时通常需要的时间。任何人都可以提出建议，这里有什么问题。

感谢。