java - Hadoop-MapReduce的小数据集

时间：2012-10-16 12:50:17

标签： java hadoop dataset mapreduce

我正在努力熟悉Hadoop-MapReduce。在研究了这个概念的理论知识之后，我想对它们进行练习。

但是，我找不到这项技术的小数据集（最高3 Gb）。我在哪里可以找到数据集来进行练习？

或者，我怎样才能练习Hadoop-MapReduce？换句话说，有没有提供练习的教程或网站？

答案 0 :(得分：7)

可以下载和使用的可公开访问的数据集。下面是一个几个例子。

http://www.netflixprize.com/index - 作为比赛的一部分，它发布了一组用户评级数据集，以挑战人们更好地发展推荐算法。未压缩的数据为 2 GB + 。它包含 17 K电影中480 K用户的100 M +电影评级。

http://aws.amazon.com/publicdatasets/ - 例如，其中一个生物数据集是大约550GB的注释人类基因组数据。下经济学，你可以找到数据集，如2000年美国人口普查（约 200 GB）。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ - 卡内基梅隆大学语言技术研究所发布了ClueWeb09数据集以提供帮助大规模的网络研究。这是10种语言的十亿个网页的爬行。该未压缩的数据集占用25 TB。

答案 1 :(得分：5)

为什么不自己创建一些数据集？

一个非常简单的事情是填充一个包含数百万随机数的文件，然后使用Hadoop查找重复项，三元组，素数，在其因子中有重复的数字等等。

当然，它并不像寻找常见的Facebook朋友那么有趣，但它应该足以让我们进行一些Hadoop练习。

答案 2 :(得分：3)

或者，我怎样才能练习Hadoop-MapReduce？换句话说，有没有提供练习的教程或网站？

以下是一些toy problems入门。另外检查Data-Intensive Text Processing with MapReduce，它有一些伪代码用于某些算法，如页面排名，连接，MapReduce中实现的索引。

以下是一些随时间收集的公共数据集。你可能不得不挖掘小的。