hadoop大文件不拆分

时间:2015-06-21 13:51:26

标签: performance hadoop split mapreduce

我有一个大小为136MB的输入文件,我启动了一些WordCount测试,我只监控一个映射器。然后我在dfs.blocksize中将64MB设置为hdfs-site.xml,我仍然会得到一个映射器。我做错了吗?

1 个答案:

答案 0 :(得分:2)

  

dfs.block.size并非单独扮演角色,而是建议不要扮演角色   改变因为它全局适用于HDFS。

     

mapreduce中的分割大小由此公式计算

max(mapred.min.split.size, min(mapred.max.split.size, dfs.block.size))
     

因此,您可以在驱动程序类中将这些属性设置为

conf.setLong("mapred.max.split.size", maxSplitSize); 
conf.setLong("mapred.min.split.size", minSplitSize); 
     

或在配置文件中

<property>
    <name>mapred.max.split.size</name>
    <value>134217728</value>
</property>
<property>
    <name>mapred.min.split.size</name>
    <value>134217728</value>
</property>