mapreduce程序

时间:2012-10-13 09:48:53

标签: mapreduce


考虑一个.txt文件..因为我没有用新行字符分隔的段落。

现在我需要计算每个段落中的单词数量。将计算出来的单词作为关键词 映射器并为所有人初始分配值

在Reducer中给我一个排序输出 请给我一个完整的代码,以便更好地理解,因为我是一个更新鲜的
请更好地澄清每个段落中的单词数量如何计算

1 个答案:

答案 0 :(得分:0)

执行计数的映射器不会产生您尝试通过map reduce技术实现的性能。

要真正利用map reduce的好处,您应该考虑处理段落编号 (第1段为1,第2段为2,依此类推)然后将这些段落发送给不同节点上运行的不同减速器进行单独计数(利用并行处理的能力),然后对输出进行排序,可将其输入到简单的程序为你做排序,或者如果段落的数量很大,将其提供给另一个地图减少工作。在这种情况下,您需要考虑一系列数字作为地图缩减的关键,比如数字(从前一个地图缩减作业中获得的段落中的单词数量)从1到10应该落入一个存储桶中并且应该映射到一个键,然后各个reducer可以在这些单独的桶上进行排序,结果可以在最后进行整理,以获得完整的排序输出。

map-reduce的示例实现可在以下位置找到:http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html

相关问题