Hadoop2单作业配置/优化

时间:2017-08-25 06:47:38

标签: hadoop optimization mapreduce hadoop2

我的工作主要是默认配置。

这项工作相当大,运行在200x 4cpu 15GB集群上。 这是群集需要运行的唯一作业,在任何给定时间始终都会有一个此作业的实例。

目前我在映射阶段看到的CPU使用率接近100%,但一旦归结为减少阶段,它只能使用约50%。

我应该调整哪些常见配置值?特别是考虑到这是集群的唯一工作吗?

奖金问题...使用当前配置,我最终会得到800个输出文件(4 x 200缩减器)。是否有一种优雅/高效的方式来输出更少的文件,而不会影响并行性。

0 个答案:

没有答案
相关问题