hadoop - Hadoop：MR启动的映射器少于指定的映射器

不幸的是，大多数可能影响地图任务数量的参数比硬性和快速规则更接近“建议”。由InputFormat决定它遵循这些参数的紧密程度。例如，FileInputFormat执行以下操作：

它根据：Math.max(minSize, Math.min(maxSize, blockSize))计算splitSize。对于每个文件，它计算该大小的分割数量。例如，如果拆分大小为1 GB，并且您有两个大小为1.5 GB和2.5 GB的文件，则将获得2 + 3 = 5个拆分。但是，当它走向文件末尾时，它有时会将这些分割拉伸最多10％。例如，5.1 GB文件中的1 GB分割大小将使用5个分割。基于特定的子类实现，还有一些注意事项。

我的观点是，有一些捏造，但这通常是合理的行为。您应该将您设置的参数视为指南，并相信您正在使用的InputFormat在确定要运行的映射器数量时会做一些合理的事情。

不，它与核心数量或任务槽数无关。这可能会影响可以同时运行多少个映射器，但不会影响映射任务的总数。

Hadoop：MR启动的映射器少于指定的映射器

1 个答案: