hadoop - 单节点Vs Multi节点上的hadoop MapReduce作业

时间：2015-01-10 10:13:07

标签： hadoop mapreduce

嘿，我已经编写了第一个用于map reduce的Java代码。我在一个节点上运行它。

但我不确定使用多节点需要做些什么改变如果有的话，有人可以指导我吗？

答案 0 :(得分：1)

一个好的起点是遵循this tutorial。

您应该关注的要点是：

/etc/hosts文件每个节点，您可以在其中添加所有节点的IP（同时确保您可以在没有密码的情况下ssh到每个节点）
$HADOOP_HOME/conf/masters和$HADOOP_HOME/conf/slaves个文件，您可以在其中添加相应的节点
增加数量减少任务，如果它是1并且您的算法支持它。您可以通过调用setNumReduceTasks(int n)方法在主方法中执行此操作（有关设置此说明的说明here）。
设置复制因子，以防它为1（默认值为3），以利用数据局部性（数据被复制到更多节点，因此可以保存一些数据传输）。
按照提供的教程中的说明设置*-site.xml个文件。

当然，您应该在更改之前停止群集，然后重新启动。