行业大数据架构(传感器数据)

时间:2015-02-04 14:52:45

标签: cassandra apache-spark bigdata apache-kafka

一个新项目来到我手中,看起来很有趣。 我需要存储来自工业PLC的所有即将到来的数据(控制工厂内的机器),并且plc中的每个事件都会生成一个需要在数据分析后保存的输出。 我想知道什么是这种类型的数据(时间序列)的完美匹配,以建立一个管理数据IO的洞架构,目前只查询它的图形(以后将应用机器学习分析进行预测性维护)。 / p>

我不知道我是否朝着正确的方向努力,并且能够从该专业的专家那里获得一些知识。

  1. IO制作人(这是一个自己制作的项目,不能改变)
  2. IO事件图层 - > apache kafka是一个管理大量信号的选项,用于许多不同的计算机(收集到plcs),还管理数据保存到nosql数据库。 (它适合那种?更好的选择)
  3. nosql数据库 - >选择Cassandra进行时间序列存储时,这一点更为明确。
  4. queryng nosql data - >我们选择spark进行快速查询,然后进行一些数据分析。
  5. 我更怀疑的层是在存储之前管理io数据所涉及的层,我非常怀疑kafka是正确的选择。

    感谢阅读并抱歉我的英语不好;)随意提出你的观点。

1 个答案:

答案 0 :(得分:0)

我们有一个基于传感器数据的类似项目。我们每天有大约30 GB的数据。我们使用kafka来传输数据并将其存储在hdfs中。我们有一个python(numpy,pandas和pyspark)的设置以及基本上用于预测部分的任何数据处理的火花。 至于你对卡夫卡的怀疑......它能够处理大型数据集。另一个好处是kafka可以处理多个来源并且更容易扩展。 就数据存储而言,我建议您使用HDFS,因为它可以以多种方式使用以消耗数据。如果将来需要,您可以利用hive或hbase。

相关问题