hadoop - 猪 - 用猪装载Word文档（.doc＆amp; .docx）

时间：2013-08-29 09:03:24

标签： hadoop mapreduce bigdata apache-pig

我无法使用pig加载Microsoft Word文档（.doc或.docx）。实际上，当我尝试这样做时，通过使用TextLoader（），PigStorage（）或根本没有加载器，它不起作用。输出是一些奇怪的符号。

我听说我可以在JAVA中编写一个自定义加载程序，但这看起来非常困难，我现在还不知道如何编写其中一个。

我想将所有.doc文件内容放在一个chararray包中，以便稍后使用过滤功能来处理它。

我该怎么办？

谢谢

答案 0 :(得分：1)

他们是对的。由于.doc和.docx是二进制格式，因此简单的文本加载器不起作用。您可以编写UDF以便能够将文件直接加载到Pig中，也可以执行一些预处理以将所有.doc和.docx文件转换为.txt文件，以便Pig将加载这些.txt文件。 This链接可以帮助您开始寻找转换文件的方法。

但是，我仍然建议学习编写UDF。预处理文件会增加可以避免的重大开销。

更新：以下是我过去用于编写java（加载）UDF的一些资源。 One，Two。