如何编写自定义输入格式

时间:2015-03-30 04:51:47

标签: hadoop mapreduce

我是 Hadoop 的新手,我的情况是每4行输入文本只有一行是相关的。目前我使用默认的TextInputFormat和一个条件逻辑来跳过所有其他三条无关紧要的行。

如何使用Custom Input Format来处理此问题。由于我是hadoop的新手,我对CustomInputFormat了解不多。任何帮助,将不胜感激。谢谢!

1 个答案:

答案 0 :(得分:1)

我认为您可以使用NLineInputFormat来指定一条记录的行构造数。这可能很简单&准备使用解决方案。

如果你想实现自己的输入格式,那么你可能会实现自定义输入格式&记录阅读器以指定构建您的一条记录的内容。

下面的

是其中一个例子 http://deep-developers.blogspot.in/2014/06/custom-input-split-and-custom.html