将xlsx文件加载到pig关系中

时间:2017-06-15 16:47:32

标签: csv apache-pig

我正在尝试将xlsx文件加载到pig关系中。该文件可以包含带有“,”的数据作为数据的一部分。所以我无法将其转换为CSV并加载它。所以我试图将xlsx文件加载到pig关系中并将其接受进一步处理。

但我不确定如何将xlsx文件加载到pig关系中。我尝试了一些如下所示的选项,但没有成功。当我转储数据时,它不会给出任何可读的输出。

xlsx文件中的示例数据

ColumnA ColumnB ColumnC

IN 003倡导者

IN 004 Business

IN 005会计师,CA

REGISTER /usr/lib/pig/piggybank.jar;
Data = load '/user/cloudera/kbk/occcd.xlsx' using org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'NOCHANGE', 'SKIP_INPUT_HEADER') as (country:chararray,ccode:chararray;cdesc;chararray);

a = load '' Using PigStorage('\t') As (country:chararray,ccode:chararray;cdesc;chararray);

任何帮助都将受到高度赞赏。

感谢。

1 个答案:

答案 0 :(得分:0)

您的架构存在语法问题。字段:数据类型声明必须用':'和字段','分隔。

(country:chararray,ccode:chararray;cdesc;chararray);

将其更改为

(country:chararray,ccode:chararray,cdesc:chararray);