电子邮件和地图减少工作

时间:2012-04-13 16:03:35

标签: python map hadoop mapreduce reduce

我刚开始使用Hadoop并编写一些Map Reduce作业。我正在寻找有关在python中编写MR工作的帮助,这可以让我收集一些电子邮件并将它们放入HDFS中,以便我可以搜索电子邮件的文本或附件?

谢谢!

2 个答案:

答案 0 :(得分:3)

为了处理电子邮件,stdlib中的email模块可能会很方便。对于Hadoop方面,Using Python with Hadoop可能很方便,尽管有很多Google搜索结果可供选择。

答案 1 :(得分:1)

是的,如果你想使用编写Python代码来运行MapReduce作业,你需要使用hadoop流