提交hadoop-streaming工作:yarn或hadoop?

时间:2016-01-11 01:45:23

标签: hadoop yarn hadoop-streaming

使用yarn jar命令和使用hadoop jar命令提交hadoop-streaming作业有什么区别?

这来自current documentation

hadoop jar hadoop-streaming-2.7.1.jar \
  -D mapreduce.job.reduces=2 \
  -input myInputDirs \
  -output myOutputDir \
  -mapper /bin/cat \
  -reducer /usr/bin/wc

但是这个命令也可以用:

完成
yarn jar hadoop-streaming-2.7.1.jar \
  -D mapreduce.job.reduces=2 \
  -input myInputDirs \
  -output myOutputDir \
  -mapper /bin/cat \
  -reducer /usr/bin/wc

如果两个命令是等效的(我认为它们是相同的),这是首选,为什么?

1 个答案:

答案 0 :(得分:2)

如果您的MapReduce框架是YARN,它们是相同的。如果没有,hadoop jar将使用MRv1运行您的jar文件,而yarn jar将通过YARN(MRv2)运行您的jar。