python - Hadoop Streaming with TextInputFormat和Python - 跟踪行号

时间：2016-02-03 08:42:00

标签： python hadoop hadoop-streaming

我正在尝试计算方阵上每个对角线的总和。我正在使用Python和Hadoop流，但我找不到任何方法来配置Hadoop流，以便this guy使用TextInputFormat获取每行的偏移量。

StackOverflow上还有另一个question问同样的问题，但对如何做却没有任何回应。 hadoop doc说了一些关于丢弃keys of LongWritable class的内容，但我不确定这是否是偏移量。

如何配置作业以获得偏移量？我是否需要创建一个派生自TextInputFormat的新类而不返回LongWritable？如果我不懂Java，我该怎么做？感谢

答案 0 :(得分：0)

我已经对StackOverflow进行了更多的研究，还有另外一个人问same thing，但没有人回答，尽管他确实说使用-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat有效，但它需要一个很多时间完成工作。

我知道可以有更好的答案，但是直到有人回答，这已经足够了。