如何使用map pig
使用Apache pig Latin编程读取.doc文件A = load'./pig/test.docx';
B = foreach A生成flatten(TextLoader((chararray)$ 0))为word;
C =字组B;
D = foreach C生成COUNT(B),组;
将D存储到'./wordcountone';
答案 0 :(得分:0)
您需要为pig脚本创建自定义加载函数。 首先从使用java的简单.doc或.docx解析开始,这里有一些示例:How read Doc or Docx file in java?但我相信你会在google上找到更多。
一旦您知道如何从Word文档中获取数据,就需要实现pig函数。
可以找到自定义猪装载程序(步骤)的示例here