PIG不一致记录计数

时间:2014-08-30 05:50:32

标签: apache-pig cloudera-cdh

我正在运行一个简单的加载和计数功能,如下所示

my_src = LOAD'<>'使用PigStorage('|')AS (

<<方案定义>> );

my_count = FOREACH(GROUP my_src ALL)GENERATE COUNT(my_src); 存储my_count INTO'file1';

我得到的答案是大约279密排。

现在,如果我运行组 my_grp = group my_src by(key1,key2,key3,key4);

my_grp_cnt = FOREACH(GROUP my_grp ALL)GENERATE COUNT(my_grp);

存储my_count INTO'file2';

我得到的答案是572密耳的行。

我的期望是保持与减少相同的数量。我有什么东西吗? 在这里失踪?

我在CDH 5上使用PIG 0.12

0 个答案:

没有答案