hadoop - 如何在多核8节点集群中安排Hadoop Map任务？

如何在多核8节点集群中安排Hadoop Map任务？

时间：2012-04-29 15:47:21

标签： hadoop mapreduce cloudera

我有一个“仅限地图”（没有减少阶段）计划。输入文件的大小足以创建7个map任务，我已经通过查看生成的输出（part-000到part006）验证了这一点。现在，我的集群有8个节点，每个节点有8个内核和8 GB内存，并在头节点托管共享文件系统。

我的问题是，我可以选择仅在1个节点中运行所有7个映射任务，还是在7个不同的从属节点中运行7个映射任务（每个节点1个任务）。如果我可以这样做，那么我的代码和配置文件需要进行哪些更改。

我尝试在我的代码中将参数“mapred.tasktracker.map.tasks.maximum”设置为1和7，但我没有发现任何明显的时差。在我的配置文件中，它设置为1。

3 个答案:

答案 0 :(得分：4)

"mapred.tasktracker.map.tasks.maximum"处理应在每个节点上启动的地图任务的数量，而不是每个地图任务要使用的节点数。在Hadoop架构中，每个节点（从站）有1个tasktracker，主节点（master）上有1个作业跟踪器。因此，如果设置属性mapred.tasktracker.map.tasks.maximum，它将仅更改每个节点要执行的映射任务的数量。 "mapred.tasktracker.map.tasks.maximum"的范围是1/2*cores/node到2*cores/node

您应该使用setNumMapTasks(int)

设置整体所需的地图任务数

答案 1 :(得分：1)

现在，我的群集有8个节点，每个节点有8个内核和8 GB内存，并在头节点托管共享文件系统。

当您说共享文件系统托管头节点时，您是说数据是托管在HDFS上，还是托管在每个节点上安装的某些NFS文件系统上？我猜你的意思是HDFS，但如果你使用的是NFS或类似的东西，那么你应该期望看到更高的HDFS吞吐量（你希望将处理代码移动到数据，而不是将数据移动到处理机器上））

您的输入文件有多大，它的分割大小，文件格式（文本，序列等），复制因子和压缩方法是什么？

根据上述问题的答案，使用8x8设置，如果减少地图分割大小并提高复制系数，则可能会获得更好的吞吐量。

答案 2 :(得分：1)

如果可能的话，你肯定应该在7个不同的节点上运行7个map任务。 MapReduce的全部优势是能够并行化您的计算，以便每项任务尽可能高效地运行。如果在一个节点上运行了7个映射任务，则每个任务将在该单个节点上竞争相同的资源（RAM，CPU，IO）。

mapred.tasktracker.map.tasks.maximum的标准设置是每个核心一个，因此您可以将设置更改为8。

此外，如果您有一个仅限地图的作业，您需要一个很好的理由将地图集的数量设置为特定数量。设置地图任务的数量只是对作业跟踪器“运行”有多少地图的“提示”，但这最终由作业跟踪器根据DFS如何存储输入数据来决定。 This wiki has more details.

但是，您确实希望在某些情况下控制reduce任务的数量。例如，如果我想要一个已排序的数字列表，我希望确保所有数据都通过单个reducer传递。