PIG中加载的多个文件的多个输出

时间:2015-08-08 20:50:25

标签: hadoop apache-pig

我的数据目录中有50个文本文件(路径:/ home / admin / Desktop / data)。我的任务是展平(标记化)文本文件中的数据,并将输出存储在50个输出文件中。

以下是我为完成这项工作所做的关系:

--This will load all the 50 text files.
A = Load '/home/admin/Desktop/data' Using PigStorage(','); 

--This relation will create every word as a token and will flatten the data.
B = FOREACH A GENERATE FLATTEN(TOKENIZE($0));

STORE B into '/home/ameya/Desktop/PigOutput';

现在,当我执行这个猪脚本时,我只得到一个输出文件,用于50个输入文件。

如何获取50个不同的输出文件,每个文件包含与其输入文件中的数据对应的输出数据?

2 个答案:

答案 0 :(得分:1)

您是否尝试过PIG MultiStorage UDF

如果要为单独的50个i / p文件创建50个o / p文件,那么最好运行PIG脚本50次(循环)并使用i / p文件和o / p文件作为参数你的PIG脚本。

答案 1 :(得分:0)

Split运算符可用于根据某个表达式将关系的内容划分为两个或多个关系。根据表达式中提供的条件,将完成以下两项中的任何一项:

  • 可以将元组分配给多个关系
  • 可能不会将元组分配给任何关系

目录中的多个文件,用于加载,展平和存储:

[user1@localhost ~]# ls /pigsamples/mfilesdata/
file1  file2  file3

在目录上方加载:

grunt> input_data = LOAD '/pigsamples/mfilesdata' USING PigStorage (',') AS (f1:INT, f2:INT, f3:INT);
grunt> DUMP input_data;
(1,2,3)
(2,3,1)
(3,1,2)
(4,5,6)
(5,6,4)
(6,4,5)
(7,8,9)
(8,9,7)
(9,7,8)

根据您的要求格式化数据。我使用了与问题相同的动作。

grunt> formatted_data = FOREACH input_data GENERATE FLATTEN(TOKENIZE($0));    //replace with your requirements

使用SPLIT运算符根据条件将关系拆分为多个关系。

grunt> 
SPLIT formatted_data 
INTO split1 IF f1 <= 3, 
split2 IF (f1 > 3 AND f1 <= 6), 
split3 IF f1 > 6;       //split based on the column which is unique within all the files

输出:

grunt> DUMP split1;
(1,2,3)
(2,3,1)
(3,1,2)

grunt> DUMP split2;
(4,5,6)
(5,6,4)
(6,4,5)

grunt> DUMP split3;
(7,8,9)
(8,9,7)
(9,7,8)
相关问题