加载文件时避免解析

时间:2013-12-04 18:01:07

标签: hadoop apache-pig

假设我有以下文件( input.txt ):

1   2   sometext1
2   3   sometext2
3   4   sometext3
4   5   sometext4

即。制表符分隔文件,其中每一行由两个表示Integer的字符串和表示任意文本的第三个字符串组成。

此文件是PigLatin脚本的输入:

input = load 'input.txt' as (a:int, b:int, c:chararray);

我的假设是Pig会浪费时间解析文本文件以产生相应的整数。我是对的吗?

我想在二进制文件中存储三个整数的二进制表示。

如何让Pig了解这样的二进制文件?我应该只是扩展LoadFunc还是需要使用BinStorage

1 个答案:

答案 0 :(得分:0)

你害怕浪费多少时间在这里?假设你的脚本的其余部分做了任何有意义的事情,或者你的文件足够大(这样IO会很严重),与其他所有内容相比,解析工作可以忽略不计