在猪中转储字符串或(字符串,整数)元组

时间:2015-03-12 17:26:25

标签: apache-pig hadoop2

我有一个简单的猪脚本,我能够读取数据并转储数据。但是,我无法转储字符串或(string,int)元组。只是想知道我在这里失踪了什么?非常感谢!


dataset = LOAD '/Users/me/input' USING PigStorage() AS (id:chararray,data:chararray);

dataset_GROUP = GROUP dataset ALL;
dataset_COUNT = FOREACH dataset_GROUP GENERATE COUNT(dataset);

DUMP "record_count = ";                 <-- this does not work
DUMP dataset_COUNT;                     <-- this works 
DUMP "record_count = ", dataset_COUNT;  <-- this does not work

1 个答案:

答案 0 :(得分:5)

您可以使用Apache Pig的 CONCAT() 功能将字符串连接到结果,如下所示:

dataset = LOAD '/Users/me/input' USING PigStorage() AS (id:chararray,data:chararray);

dataset_GROUP = GROUP dataset ALL;
dataset_COUNT = FOREACH dataset_GROUP GENERATE CONCAT('record_count = ', COUNT(dataset));

DUMP dataset_COUNT;

有关 Apache Pig 0.13.0 的Concat()的详细信息,您可以查看here

如果您使用较旧的Pig版本,则可以编写用户定义函数(UDF),它将执行连接操作并返回结果。有关详细信息,请参阅Pig Documentation on UDF