Hadoop-MapReduce的小数据集

时间:2012-10-16 12:50:17

标签: java hadoop dataset mapreduce

我正在努力熟悉Hadoop-MapReduce。在研究了这个概念的理论知识之后,我想对它们进行练习。

但是,我找不到这项技术的小数据集(最高3 Gb)。我在哪里可以找到数据集来进行练习?

或者,我怎样才能练习Hadoop-MapReduce?换句话说,有没有提供练习的教程或网站?

3 个答案:

答案 0 :(得分:7)

可以下载和使用的可公开访问的数据集。下面是一个 几个例子。

http://www.netflixprize.com/index - 作为比赛的一部分, 它发布了一组用户评级数据集,以挑战人们更好地发展 推荐算法。未压缩的数据为 2 GB + 。它包含 17 K电影中480 K用户的100 M +电影评级。

http://aws.amazon.com/publicdatasets/ - 例如,其中一个 生物数据集是大约550GB的注释人类基因组数据。下 经济学,你可以找到数据集,如2000年美国人口普查(约 200 GB)。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ - 卡内基梅隆大学 语言技术研究所发布了ClueWeb09数据集以提供帮助 大规模的网络研究。这是10种语言的十亿个网页的爬行。该 未压缩的数据集占用25 TB。

答案 1 :(得分:5)

为什么不自己创建一些数据集?

一个非常简单的事情是填充一个包含数百万随机数的文件,然后使用Hadoop查找重复项,三元组,素数,在其因子中有重复的数字等等。

当然,它并不像寻找常见的Facebook朋友那么有趣,但它应该足以让我们进行一些Hadoop练习。

答案 2 :(得分:3)

  

或者,我怎样才能练习Hadoop-MapReduce?换句话说,有没有提供练习的教程或网站?

以下是一些toy problems入门。另外检查Data-Intensive Text Processing with MapReduce,它有一些伪代码用于某些算法,如页面排名,连接,MapReduce中实现的索引。

以下是一些随时间收集的公共数据集。你可能不得不挖掘小的。

http://wiki.gephi.org/index.php/Datasets
Download large data for Hadoop
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/