从当前运行的Job运行新的Hadoop流式传输作业

时间:2013-06-10 07:17:06

标签: hadoop mapreduce hadoop-streaming

是否可以从

创建和运行新的Hadoop 流式作业
  1. 当前正在执行的常规Hadoop Java作业,或
  2. Hadoop Mapper(在Python中),作为Hadoop流媒体作业的一部分执行。
  3. 怎么样?

1 个答案:

答案 0 :(得分:1)

对于大多数Java作业,在Java程序中运行.jar很简单。与Python流媒体作业相同。

$ HADOOP_HOME / bin / hadoop jar $ HADOOP_HOME / hadoop-streaming.jar \      - 输入myInputDirs \     -output myOutputDir \     -mapper org.apache.hadoop.mapred.lib.IdentityMapper \     -reducer / bin / wc