使用Map / Reduce算法计算单词

时间:2012-04-26 02:55:16

标签: algorithm map count word reduce

如果要计算20个单词。每5个字一组,这些组由不同的计算机节点处理。好吧,如果“男孩”这个词出现两次,但分成不同的组,Map / Redude使用什么样的算法来获得“男孩”这个词的实际数字。

2 个答案:

答案 0 :(得分:2)

在这个例子中,使用Map / Reduce计算它的最明显方法是每个映射器得到5个单词,然后将单词发送给reducers。单词将在reducer之间分割,以便reducer 1得到所有“boy”单词,reducer 2得到所有“the”单词等,reducer可以简单地总结它收到的单词以获得出现的次数那个词。

Hadoop文档中有一个例子:http://hadoop.apache.org/common/docs/current/mapred_tutorial.html#Example%3A+WordCount+v1.0

答案 1 :(得分:0)

这是MapReduce的减少。主节点将获取每个子组中的出现次数,并通过添加每个单词的出现次数来组合它们。因此,如果有四个组,并且其中两个组中的'boy'恰好出现一次,那么它将通过添加事件来组合它们以获得总计1 + 1 + 0 + 0 = 2。