Hadoop Streaming with TextInputFormat和Python - 跟踪行号

时间:2016-02-03 08:42:00

标签: python hadoop hadoop-streaming

我正在尝试计算方阵上每个对角线的总和。我正在使用Python和Hadoop流,但我找不到任何方法来配置Hadoop流,以便this guy使用TextInputFormat获取每行的偏移量。

StackOverflow上还有另一个question问同样的问题,但对如何做却没有任何回应。 hadoop doc说了一些关于丢弃keys of LongWritable class的内容,但我不确定这是否是偏移量。

如何配置作业以获得偏移量? 我是否需要创建一个派生自TextInputFormat的新类而不返回LongWritable?如果我不懂Java,我该怎么做?感谢

1 个答案:

答案 0 :(得分:0)

我已经对StackOverflow进行了更多的研究,还有另外一个人问same thing,但没有人回答,尽管他确实说使用-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat有效,但它需要一个很多时间完成工作。

我知道可以有更好的答案,但是直到有人回答,这已经足够了。

相关问题