hadoop - 关于地图/减少作业到数据集的计算机平均值需要澄清吗？

我正在学习map / reduce，我正在研究计算数据集特定列中所有值的平均值的问题。

到目前为止，我所看到的所有解决方案都是按照这个方式做的。

数据集
  1
  2
  3
  4
  5个


map job：生成键，值对，键为1
  （1,1）
  （1,2）
  （1,3）
  （1,3）
  （1,4）

现在因为地图作业输出的键是相同的，所有这些都将被发送到一个减速器，在那里我们可以进行计算总和/计数

但是，我的问题是，对所有条目使用相同的密钥是否直观？ map / reduce的目的不是分割作业，以便我们可以同时运行它们吗？所有地图都没有相同的密钥可以击败map / reduce的目的吗？

这是计算平均值最有效的算法吗？还是可以进一步改进？