“合并”在MapReduce中意味着什么?

时间:2015-06-22 16:39:27

标签: hadoop mapreduce

当我查看我的Hadoop屏幕时,我会看到像

这样的统计数据
Average Map Time    5mins, 56sec
Average Shuffle Time    6mins, 27sec
Average Merge Time  4mins, 25sec
Average Reduce Time 3mins, 51sec

根据我的理解,MapReduce的工作方式类似于

  1. 映射步骤:使用“映射器”计算机对每行输入应用一些转换,为每行输出一个键值对。
  2. 随机播放步骤:获取这些键值对,并使用相同的键将对组合在一起,将具有相同键的对分配给同一个“reducer”机器。
  3. 减少步骤:对具有相同键的所有对应用“减少”转换,为每个组生成一个结果。
  4. 所以我想我知道“地图”,“随机播放”和“减少”是什么。但什么是“合并?”

1 个答案:

答案 0 :(得分:1)

随机和合并重叠:

该指标列为"随机播放结束与缩减开始之间的时间差值"

你可以在这些补丁说明中看到"洗牌和合并阶段在实践中重叠,但实际上我们在这里寻找的是即使在数据被洗牌到减速器之后合并的时间过长。 "

因此,这些步骤在流程中一起发生,但它们只是计算所需额外合并时间的指标。

来源: https://issues.apache.org/jira/browse/MAPREDUCE-5059