Hadoop:如何在Python MapReduce中包含第三方库

时间:2013-03-12 03:51:35

标签: python hadoop mapreduce

我在Python中编写MapReduce作业,并希望使用像chardet这样的第三个库。

我知道我们可以使用选项-libjars=...将它们包含在java MapReduce中。

但是如何在Python MapReduce Job中包含第三方库?

谢谢!

1 个答案:

答案 0 :(得分:1)

问题已由zipimport解决。

然后我将chardet压缩到文件module.mod,然后像这样使用:

importer = zipimport.zipimporter('module.mod')
chardet = importer.load_module('chardet')

在hadoop流命令中添加-file module.mod

现在可以在脚本中使用chardet

更多详细信息显示在:How can I include a python package with Hadoop streaming job?