这种情况是一个大数据项目吗?

时间:2016-07-15 18:10:00

标签: mongodb hadoop apache-spark bigdata

我参与了一个有两个阶段的项目,我想知道这是一个大数据项目(我是这个领域的新手)

在第一阶段我有这种情况:

  • 我必须收集大量数据
  • 我需要存储它们
  • 我需要构建一个向用户显示数据的Web应用程序

在第二阶段,我需要分析存储的数据并构建报告并对它们进行一些分析

关于数据量的一些例子;在一天之内,我可能需要收集和存储大约86.400.000记录

现在我正在考虑这种架构:

  • 为数据提供一些异步技术,如Active MQ和MQTT协议
  • 存储数据我正在考虑使用NoSQL DB(mongo,Hbase或其他)

现在这将解决我的第一阶段问题

但是第二阶段呢?

我正在考虑一些大数据SW(如hadoop或spark)和一些机器学习SW;所以我可以从数据库中检索数据,分析它们,以更好的方式构建或存储,以便建立良好的报告并进行一些特定的分析

我想知道这是否是最好的方法

你会如何解决这种情况?我是以正确的方式吗?

谢谢

安吉洛

2 个答案:

答案 0 :(得分:1)

正如siddhartha所回答的,您的项目是否可以被标记为bigdata项目,取决于项目的上下文和buiseness域/案例。

来到技术堆栈,您提到的每种技术都有特定的用途。例如,如果您有结构化数据,则可以使用任何具有查询支持的新年龄数据库。 NoSQL数据库有不同的风格(columner,基于文档,键值等),因此技术选择又取决于您拥有的数据类型和用例。我建议你在接听最终电话之前做一些POC和技术分析。

答案 1 :(得分:0)

大数据的定义因用户而异。对于谷歌100 TB可能是一个小数据但对我来说这是大数据,因为可用硬件商品的差异。 Ex - > Google可以拥有50000个节点的集群,每个节点具有64 GB Ram,用于分析100 Tb数据,因此对于他们来说这不是大数据。但我不能拥有50000节点的集群,所以对我来说这是大数据。

如果有商品硬件,你可以继续使用hadoop。由于你没有提到你每天都在生成的文件大小,我无法确定你的情况。但是,由于像spark这样的新项目可以帮助您在更短的时间内处理数据,而且它还为您提供实时分析功能,因此hadoop始终是处理数据的理想选择。所以根据我的说法,如果你可以使用spark或hadoop更好,那么你可以使用你的数据。此外,由于你想使用nosql数据库,你可以使用hadoop提供的hbase来存储你的数据。

希望这能回答你的问题。

相关问题