无法在Pig中使用多个分隔符处理文件

时间:2015-12-05 07:18:23

标签: hadoop apache-pig

我无法处理包含多个分隔符的记录的文件。 我的文件有1,jhon 20000等记录。 我尝试了下面给出的猪脚本

outerbag = load 'file location ' using PigStorage(',') as (eid,edteail);
innerbag = FOREACH outerbag GENERATE eid, FLATTEN(STRSPLIT(edetails,'\t'));
dump innerbag;

我的输出为:

 (1,)
 (2,)

等等。

如何获得正确的输出:(1,jhon 20000)

2 个答案:

答案 0 :(得分:0)

A =  LOAD 'folder/file';

B = FOREACH A GENERATE FALTTEN(
REGEX_EXTRACT_ALL($0,'(.*),(.*) (.*)'));

答案 1 :(得分:0)

第一行和第二行中使用的变量名称与res.send({name : "bleh"});不同。

尝试,

edetails