一个新项目来到我手中,看起来很有趣。 我需要存储来自工业PLC的所有即将到来的数据(控制工厂内的机器),并且plc中的每个事件都会生成一个需要在数据分析后保存的输出。 我想知道什么是这种类型的数据(时间序列)的完美匹配,以建立一个管理数据IO的洞架构,目前只查询它的图形(以后将应用机器学习分析进行预测性维护)。 / p>
我不知道我是否朝着正确的方向努力,并且能够从该专业的专家那里获得一些知识。
我更怀疑的层是在存储之前管理io数据所涉及的层,我非常怀疑kafka是正确的选择。
感谢阅读并抱歉我的英语不好;)随意提出你的观点。
答案 0 :(得分:0)
我们有一个基于传感器数据的类似项目。我们每天有大约30 GB的数据。我们使用kafka来传输数据并将其存储在hdfs中。我们有一个python(numpy,pandas和pyspark)的设置以及基本上用于预测部分的任何数据处理的火花。 至于你对卡夫卡的怀疑......它能够处理大型数据集。另一个好处是kafka可以处理多个来源并且更容易扩展。 就数据存储而言,我建议您使用HDFS,因为它可以以多种方式使用以消耗数据。如果将来需要,您可以利用hive或hbase。