Pig Json Multistorage?

时间:2015-05-12 09:41:44

标签: json hadoop apache-pig

使用PIG(0.14),我对以下用例感兴趣:我希望根据其密钥将原始JSON处理到多个输出目录,并将结果(聚合数据)存储为JSON。 JSON有一个不断发展的(动态)模式,用大象鸟读入,而且(迄今为止)没有引起任何问题。

我可以将输出存储在正确的目录中(使用MultiStorage)或JSON(使用JsonStorage)但不能同时存储。据我所知,没有公开的UDF用于此目的。

我是否遗漏了某些内容,或者只是编写自己的UDF来执行此操作?这似乎是一个简单的用例,我原本认为会得到支持。

1 个答案:

答案 0 :(得分:0)

对于那些正在寻找答案的人;需要UDF。

将JsonStorage和MultiStorage的piggybank UDF组合起来创建一个伪" JsonMultiStorage"是可能的(并且相对直接)。类。

相关问题