hive分区和bucketed表有多少map和reduce任务

时间:2017-04-01 11:12:54

标签: hive mapreduce

我在hive中有一个分区表(在col1上),它也是bucketed(在16个存储区中的col2上),现在如果我想运行一个select查询将生成多少mapper和reducers任务?

1 个答案:

答案 0 :(得分:0)

对于输入表的每个输入拆分,将调度一个映射器,其中输入拆分的默认大小为块大小。

您可以通过修改mapreduce.input.fileinputformat.split.maxsize和mapreduce.input.fileinputformat.split.minsize属性来更改映射器的数量。

说到Hive中的reducer数量,默认情况下使用hive.exec.reducers.bytes.per.reducer属性计算,其默认值为1GB。

您可以通过修改上述属性来配置Reducer的数量。您仍然可以使用mapred.reduce.tasks属性为作业设置常量的reducer数。

您可以在以下链接中找到更多详细信息

How hadoop decides how many nodes will do map and reduce tasks