mapreduce如何确定要运行maptask的数据节点

时间:2019-06-14 03:34:35

标签: mapreduce

假设有一个文件200MB,块大小为64MB,获得4个块:

block 1, 64MB, stored in datanode 1.

block 2, 64MB, stored in datanode 2.

block 3, 64MB, stored in datanode 3.

block 4, 8MB,  stored in datanode 4.

(假设不同的数据节点位于不同的计算机上)

将splitsize设置为100MB,然后此文件将获得2个输入分割,

分割1,包括区块1 +区块2的36MB,

拆分2,包括第2块+第3块+第4块的28 MB,

我的问题是

  • maptask 1在哪个数据节点上运行?数据节点1还是数据节点2?
  • maptask 2在哪个数据节点上运行?数据节点2还是数据节点3或数据节点4?
  • mapreduce如何确定要运行掩码的数据节点 详细的文档来描述吗?

非常感谢,

0 个答案:

没有答案