单节点Vs Multi节点上的hadoop MapReduce作业

时间:2015-01-10 10:13:07

标签: hadoop mapreduce

嘿,我已经编写了第一个用于map reduce的Java代码。 我在一个节点上运行它。

但我不确定使用多节点需要做些什么改变 如果有的话,有人可以指导我吗?

1 个答案:

答案 0 :(得分:1)

一个好的起点是遵循this tutorial

您应该关注的要点是:

  • /etc/hosts文件每个节点,您可以在其中添加所有节点的IP(同时确保您可以在没有密码的情况下ssh到每个节点)
  • 主节点中的
  • $HADOOP_HOME/conf/masters$HADOOP_HOME/conf/slaves个文件,您可以在其中添加相应的节点
  • 增加数量减少任务,如果它是1并且您的算法支持它。您可以通过调用setNumReduceTasks(int n)方法在主方法中执行此操作(有关设置此说明的说明here)。
  • 设置复制因子,以防它为1(默认值为3),以利用数据局部性(数据被复制到更多节点,因此可以保存一些数据传输)。
  • 按照提供的教程中的说明设置*-site.xml个文件。

当然,您应该在更改之前停止群集,然后重新启动。