建议用于收集社交网络分析的BigData数据库

时间:2016-07-06 14:10:19

标签: hbase bigdata

我想构建一个系统,每小时收集社交网络数据,并对特定共享/帖子上发生的事情进行抽样(可能有数千个)。 一旦我进行了爬行,我想将它保存在一个大数据数据库中,我可以在以后进行分析。

分析过程可能是Spark甚至是应用程序代码分析。 这意味着我正在寻找能够让我的最佳数据库: 1.查询。 2. Spark和其他常用的数据处理可以在它上面使用。

你会建议哪一个? HBase的? MongoDB的? Couchbase? BigTable的? DynamoDB?

谢谢!

2 个答案:

答案 0 :(得分:1)

既然你提到了spark,我认为你需要存储一天的GB数据并且这个输入数据永远不会改变(只读)我建议将原始数据存储在文件中,比如s3或hdfs。因为从文件读取json将比从任何数据库读取更快,并且无论是来自hdfs还是hbase或couchbase,你的spark作业都是相同的。文件存储也会更便宜。

如果你仍然希望将它们存储在hbase中,即使你使用phoenix,它也不提供太多的sql查询功能,hbase是一个键值db,你最终会得到许多二级索引表和重复数据,这对于这种批处理用例。

答案 1 :(得分:0)

Cassandra 旨在实现 Amazon Dynamo 分布式存储和复制技术与 Google Bigtable 数据和存储引擎模型的组合 Twitter 和 Facebook 使用 Cassandra。

全文搜索使用 Solr。

相关问题