如何读取.doc或.docx文件

时间:2013-08-26 10:25:19

标签: apache-pig

如何使用map pig

使用Apache pig Latin编程读取.doc文件

A = load'./pig/test.docx';

B = foreach A生成flatten(TextLoader((chararray)$ 0))为word;

C =字组B;

D = foreach C生成COUNT(B),组;

将D存储到'./wordcountone';


1 个答案:

答案 0 :(得分:0)

您需要为pig脚本创建自定义加载函数。 首先从使用java的简单.doc或.docx解析开始,这里有一些示例:How read Doc or Docx file in java?但我相信你会在google上找到更多。

一旦您知道如何从Word文档中获取数据,就需要实现pig函数。

可以找到自定义猪装载程序(步骤)的示例here

相关问题