Hadoop与二进制文件

时间:2016-05-07 06:59:32

标签: hadoop binary-data hadoop-streaming

如果我有一个带输入和输出的命令行程序,如下所示:

md5sum < hadoop-2.7.2.tar.gz 
c442bd89b29cab9151b5987793b94041  - 

如何使用Hadoop运行它? 这似乎是一个非常简单的问题,但我尝试过的解决方案都没有产生正确的输出:

也许,我只是无法正确遵循说明。所以,请详细解释或至少在有用的文档中说明。

1 个答案:

答案 0 :(得分:0)

您可以使用WholeFileInputFormathadoop streaming。您可能遇到的问题是,如果您有想要完全阅读的大文件 - 但如果您强烈要求将整个文件作为program的输入,那么您应该确保输入合理或找到一个更好的算法,完全接受MR的分裂和可扩展性。