前N个最受欢迎的网站

时间:2017-09-24 09:59:15

标签: hadoop

我正在尝试学习Hadoop,我的服务器场拥有数百万个网页。我需要弄清楚哪些是最受欢迎的十大网页。如何在Hadoop中做到这一点?

1 个答案:

答案 0 :(得分:2)

看看基本的Wordcount示例。 您只需将“word in text”的概念替换为“url”。

我刚才意识到我已经在github上有这样的东西了,作为我刚才写的一个库的一个例子:https://github.com/nielsbasjes/logparser/blob/master/examples/apache-hadoop-mapreduce/src/main/java/nl/basjes/hadoop/io/input/Wordcount.java