没有输入文件的Hadoop Streaming Job

时间:2014-04-02 19:20:01

标签: hadoop hadoop-streaming

是否可以执行没有输入文件的Hadoop Streaming作业?

在我的用例中,我能够使用单个映射器和执行参数为reducer生成必要的记录。目前,我正在使用带有单行的存根输入文件,我想删除此要求。

我们考虑了2个用例 1)

  1. 我想从所有节点可用的网络位置将文件加载到hdfs。基本上,我将在映射器中运行ls并将输出发送到一小组reducer。
  2. 我们将针对多个型号运行几种不同的参数范围。模型名称不会更改,并且将作为键转到reducer,同时在映射器中生成要运行的测试列表。

1 个答案:

答案 0 :(得分:0)

根据docs,这是不可能的。以下是执行所需的参数:

  • 输入目录名或文件名
  • 输出目录名
  • mapper executable或JavaClassName
  • reducer executable或JavaClassName

看起来提供虚拟输入文件是目前的方法。