寻找大而复杂的样本数据

时间:2014-07-24 14:01:09

标签: bigdata graph-databases sample-data

我想对一些(图形)数据库进行基准测试,并寻找一些大而复杂的数据集。数据集的大小应介于2 TB和5 TB之间。您是否知道任何满足这些标准的样本数据集(可能是开放的政府或科学数据)?

1 个答案:

答案 0 :(得分:2)

这些应符合您的要求

  • 1000 Genomes项目提供260 TB人类基因组数据
  • Internet Archive正在进行80 TB网络爬行研究
  • TREC会议几年前就提供了ClueWeb09数据集。您必须签署协议并支付非常费用(最高610美元)才能支付sneakernet数据传输费用。数据约为5 TB压缩。
  • 现在可以使用
  • ClueWeb12,以及Freebase注释,FACC1
  • 印第安纳大学的CNetS提供2.5 TB click dataset可用
  • ICWSM为他们的2011 conference提供了大量博客文章。您必须注册(实际表格,而不是在线表格),但它是免费的。它压缩了2.1 TB。
  • Proteome Commons提供了几个大型数据集。最大的个人Genome Project,大小为1.1 TB。

还有其他几个大小超过100 GB。