mapreduce - mapreduce程序

执行计数的映射器不会产生您尝试通过map reduce技术实现的性能。

要真正利用map reduce的好处，您应该考虑处理段落编号（第1段为1，第2段为2，依此类推）然后将这些段落发送给不同节点上运行的不同减速器进行单独计数（利用并行处理的能力），然后对输出进行排序，可将其输入到简单的程序为你做排序，或者如果段落的数量很大，将其提供给另一个地图减少工作。在这种情况下，您需要考虑一系列数字作为地图缩减的关键，比如数字（从前一个地图缩减作业中获得的段落中的单词数量）从1到10应该落入一个存储桶中并且应该映射到一个键，然后各个reducer可以在这些单独的桶上进行排序，结果可以在最后进行整理，以获得完整的排序输出。

map-reduce的示例实现可在以下位置找到：http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html

mapreduce程序

1 个答案: