Hadoop streaming - 映射器数量(分割大小)

时间:2017-07-04 12:46:04

标签: hadoop hadoop-streaming

我们正在尝试使用hadoop流上的mapred.max.split.size配置定义映射器的数量。

问题是我们没有看到mapred.max.split.size与创建的地图制作者数量之间的相关性。

maxsize 356Mb => 9 mappers
maxsize 36Mb  => 50 mappers
maxsize 3.7Mb => 190 mappers

任何人都知道为什么会这样?

文件是gzip(大小不一致),我使用CombineFileInputFormat解压缩它们并使输入过程可拆分。

0 个答案:

没有答案