Hadoop流式api - 限制每个作业的映射器数量

时间:2013-04-09 23:28:34

标签: hadoop mapreduce cloudera

我有一个在小型hadoop集群上运行的作业,我希望限制每个datanode产生的映射器数量。当我使用-Dmapred.map.tasks = 12时,由于某种原因它仍然会产生17个映射器。我已经想出了一种在全球范围内限制它的方法,但我想在每个工作的基础上做到这一点。

1 个答案:

答案 0 :(得分:4)

在Map Reduce中,将生成的映射器总数取决于从数据创建的输入拆分。

每个输入拆分会产生一个映射器任务。所以,你不能减少Map Reduce中mapper的数量。