Pig:将大型大文件拆分成多个较小的文件

时间:2013-07-19 00:11:32

标签: hadoop apache-pig

我需要拆分由另一个Pig脚本生成的输出部分文件,并生成每个包含1000行的组。这些组将发布到Web服务以进行进一步处理。数据之间没有关系,因此我无法将数据分组到特定字段中。

我怎样才能在猪身上做到这一点?

1 个答案:

答案 0 :(得分:4)

如果拆分与数据无关,为什么甚至根本不使用Pig或MapReduce?作为替代方案,如果我没有误解,您可以使用标准拆分程序来拆分数据。例如:

cat part-* | split -d -l 1000 - result-