logstah vs火花流和风暴

时间:2016-07-10 14:18:18

标签: elasticsearch apache-spark logstash apache-storm spark-streaming

我正致力于构建分布式实时集群系统来监督和分析网络。我做了几个关于互联网的研究,我提出了很少的技术:

  • 用于实时处理:logstash,storm和apache streaming
  • 用于存储:elasticsearch
  • 用于分析:Apache Spark over Hadoop(我将使用ES-Hadoop与Elasticsearch连接)
  • 用于数据可视化:kibana,D3js,c3js

然而,logstash并不常被称为火花流和风暴。我在互联网上发现了下图所示的以下架构:

enter image description here

我有两个问题:

  1. 我不明白为什么logstash不常被提及为像火花流和风暴这样的实时处理系统。主要原因是什么?我一直在使用它,它非常强大..

  2. 关于Analyze部分,我可以在该配置中使用机器学习库吗?

1 个答案:

答案 0 :(得分:2)

  1. Logstash不是群集流处理系统。它只是一个基于JVM的进程。最新版本支持磁盘缓冲,但没有与Spark或Storm几乎相同的交付保证。看看http://storm.apache.org/releases/1.0.3/Guaranteeing-message-processing.html
  2. 是但不确定为什么首先使用Elastic存储数据。为什么不HDFS-> SparkML->弹性?这里要考虑的主要是管理模型,培训和测试。