如何处理非常大的数据?

时间:2012-04-02 06:16:35

标签: database hadoop bigtable

我即将开始一个新项目,它基本上是一个报告工具,应该有一个非常大的数据库。

表的数量不会很大(<200),大多数数据(80%)将包含在20个表中,所有数据几乎都是插入/读取的(没有更新)。

该表中的估计数据量将以每分钟240,000条记录的速度增长,我们应该保留至少1到3年的数据,以便能够执行各种报告,管理员将在线查看报告。

我没有那些大型数据库的第一手经验,所以我问那些在这种情况下哪个DB是最佳选择。我知道Oracle是安全的赌注,但如果有人拥有像hadoopdb或Google的大桌子这样的数据库以外的其他经验,我会更感兴趣。 请指导我。 提前谢谢

2 个答案:

答案 0 :(得分:4)

Oracle的扩展规模将非常昂贵。 MySQL很难扩展。这不是他们的错; RDBMS对此来说太过分了。

让我先从一个愚蠢的问题开始:你对这些数据做了什么? “各种报道”可能是很多事情。如果这些报告可以批量生成,脱机生成,那么,为什么不将数据保存在共享文件系统的平面文件中呢?

如果它需要更多的在线,那么过去2年的流行智慧是看看像Mongo,Couch和Cassandra这样的NoSQL数据库。它们是更简单,更快速的生物,可以轻松扩展并提供对数据的随机访问。

对NoSQL进行分析在今年风靡一时。例如,我会看看Acunu正在做些什么来将分析嵌入到他们的Cassandra中:http://www.acunu.com/blogs/andy-twigg/acunu-analytics-preview/

答案 1 :(得分:0)

您还可以使用Apache Solr和MongoDB。 Mongo DB和Apache Solr也用于处理NOSQL中的大数据,它可以非常快速地将数据插入和检索到数据库中。 所以你可以使用Apache Solr或MongoDb数据库。