database - 如何处理非常大的数据？

时间：2012-04-02 06:16:35

标签： database hadoop bigtable

我即将开始一个新项目，它基本上是一个报告工具，应该有一个非常大的数据库。

表的数量不会很大（<200），大多数数据（80％）将包含在20个表中，所有数据几乎都是插入/读取的（没有更新）。

该表中的估计数据量将以每分钟240,000条记录的速度增长，我们应该保留至少1到3年的数据，以便能够执行各种报告，管理员将在线查看报告。

我没有那些大型数据库的第一手经验，所以我问那些在这种情况下哪个DB是最佳选择。我知道Oracle是安全的赌注，但如果有人拥有像hadoopdb或Google的大桌子这样的数据库以外的其他经验，我会更感兴趣。请指导我。提前谢谢

答案 0 :(得分：4)

Oracle的扩展规模将非常昂贵。 MySQL很难扩展。这不是他们的错; RDBMS对此来说太过分了。

让我先从一个愚蠢的问题开始：你对这些数据做了什么？ “各种报道”可能是很多事情。如果这些报告可以批量生成，脱机生成，那么，为什么不将数据保存在共享文件系统的平面文件中呢？

如果它需要更多的在线，那么过去2年的流行智慧是看看像Mongo，Couch和Cassandra这样的NoSQL数据库。它们是更简单，更快速的生物，可以轻松扩展并提供对数据的随机访问。

对NoSQL进行分析在今年风靡一时。例如，我会看看Acunu正在做些什么来将分析嵌入到他们的Cassandra中：http://www.acunu.com/blogs/andy-twigg/acunu-analytics-preview/

答案 1 :(得分：0)

您还可以使用Apache Solr和MongoDB。 Mongo DB和Apache Solr也用于处理NOSQL中的大数据，它可以非常快速地将数据插入和检索到数据库中。所以你可以使用Apache Solr或MongoDb数据库。