将hive中的“select”输出作为Hadoop jar输入文件的输入

时间:2013-08-05 20:52:31

标签: hadoop jar hive hadoop-streaming

我正在尝试一种名为vowpal wabbit的机器学习包。 要在我们的hadoop集群上运行vowpal wabbit,它建议:

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.3.0.jar \
    -Dmapred.job.name="vw allreduce $in_directory" \
    -Dmapred.map.tasks.speculative.execution=true \
    -Dmapred.reduce.tasks=0 \
    -Dmapred.child.java.opts="-Xmx100m" \
    -Dmapred.task.timeout=600000000 \
    -Dmapred.job.map.memory.mb=1000 \
    -input <in_directory> \
    -output <out_directory> \
    -file /home/produser/vowpal_wabbit/vowpalwabbit/vw \
    -file /usr/lib64/libboost_program_options.so.5 \
    -file /lib64/libz.so.1 \
    -file /home/produser/vowpal_wabbit/cluster/runvw-yarn.sh \
    -mapper /home/produser/vowpal_wabbit/cluster/runvw-yarn.sh \
    -reducer NONE

其中runvw-yarn.sh作为映射器,会在每台机器上使用存储在其上的数据调用vowpal wabbit的命令

我必须在传入之前重新格式化数据。我尝试使用hive查询从网格中选择数据,重新格式化然后将其传递给“hadoop jar”命令。但我不想将重新格式化的数据存储在我们的集群上以浪费空间。所以我不知道在“hadoop jar”命令中的“-input”选项后要放什么。

所以我的问题是,有没有办法在“-input”命令之后添加类似“stdin”的东西? 在选择数据后,我还应该在我的配置单元查询中放置“hadoop jar”命令?

P.S。我找到了“hive --service jar”,它看起来像hadoop jar,这在这里有用吗?

谢谢!几周前我刚开始学习hadoop和hive,所以如果你有更好的设计或解决方案,请随时告诉我。我可以重写每一件事。

1 个答案:

答案 0 :(得分:0)

您似乎要运行两轮Mapreduce:第一个是Hive查询,第二个是MapReduce流。就我而言,要使用多轮Mapreduce作业,我们总是需要在轮次之间写入/读取hdfs。这就是MapReduce总是被称为批处理操作的原因。

所以,你的问题的答案是否定的。

相关问题