Question

我是PIG的新手，想要计算我的一列数据的平均值

0
10.1
20.1
30个
40个
50个
60个
70个
80.1

我写了这个猪脚本

dividends = load 'myfile.txt' as (A);
dump dividends
grouped   = group dividends by A;
avg       = foreach grouped generate AVG(grouped.A);
dump avg

它将数据解析为

（0）
（10.1）
（20.1）
（30）
（40）
（50）
（60）
（70）
（80.1）

但是为平均值

提供了此错误

2013-03-04 15:10:58,289 [main] ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1200: Pig script failed to parse: 
<file try.pig, line 4, column 41> Invalid scalar projection: grouped
Details at logfile: /Users/PreetiGupta/Documents/CMPS290S/project/pig_1362438645642.log

任何想法

Answer 1

内置AVG功能需要一个包作为输入。在group语句中，您当前按A的值对元素进行分组，但您真正想要做的是将所有元素分组到一个包中。

猪的GROUP ALL是您想要使用的：

dividends = load 'myfile.txt' as (A);
dump dividends
grouped   = group dividends all;
avg       = foreach grouped generate AVG(dividends.A);
dump avg

Answer 2

以下内容适用于计算平均值：

dividends = load 'myfile.txt' as (A);
grouped   = GROUP dividends all;
avg       = foreach grouped generate AVG(dividends);
dump avg

Answer 3

您必须使用原始数据变量名称，而不是使用组变量。在 FOREACH 行中，我使用的是 AVG(dividends.A) 而不是 AVG(grouped.A)。这是解决方案脚本：

dividends = load 'myfile.txt' as (A);
dump dividends

grouped   = group dividends by A;
avg = foreach grouped generate AVG(dividends.A);
dump avg

使用PIG计算平均值

3 个答案: