猪 - 用猪装载Word文档(.doc& .docx)

时间:2013-08-29 09:03:24

标签: hadoop mapreduce bigdata apache-pig

我无法使用pig加载Microsoft Word文档(.doc或.docx)。实际上,当我尝试这样做时,通过使用TextLoader(),PigStorage()或根本没有加载器,它不起作用。输出是一些奇怪的符号。

我听说我可以在JAVA中编写一个自定义加载程序,但这看起来非常困难,我现在还不知道如何编写其中一个。

我想将所有.doc文件内容放在一个chararray包中,以便稍后使用过滤功能来处理它。

我该怎么办?

谢谢

1 个答案:

答案 0 :(得分:1)

他们是对的。由于.doc和.docx是二进制格式,因此简单的文本加载器不起作用。您可以编写UDF以便能够将文件直接加载到Pig中,也可以执行一些预处理以将所有.doc和.docx文件转换为.txt文件,以便Pig将加载这些.txt文件。 This链接可以帮助您开始寻找转换文件的方法。

但是,我仍然建议学习编写UDF。预处理文件会增加可以避免的重大开销。

更新:以下是我过去用于编写java(加载)UDF的一些资源。 OneTwo

相关问题