标签: hadoop mapreduce bigdata apache-pig
我无法使用pig加载Microsoft Word文档(.doc或.docx)。实际上,当我尝试这样做时,通过使用TextLoader(),PigStorage()或根本没有加载器,它不起作用。输出是一些奇怪的符号。
我听说我可以在JAVA中编写一个自定义加载程序,但这看起来非常困难,我现在还不知道如何编写其中一个。
我想将所有.doc文件内容放在一个chararray包中,以便稍后使用过滤功能来处理它。
我该怎么办?
谢谢
答案 0 :(得分:1)
他们是对的。由于.doc和.docx是二进制格式,因此简单的文本加载器不起作用。您可以编写UDF以便能够将文件直接加载到Pig中,也可以执行一些预处理以将所有.doc和.docx文件转换为.txt文件,以便Pig将加载这些.txt文件。 This链接可以帮助您开始寻找转换文件的方法。
但是,我仍然建议学习编写UDF。预处理文件会增加可以避免的重大开销。
更新:以下是我过去用于编写java(加载)UDF的一些资源。 One,Two。