如何对kafka spark-streaming进行基准测试?

时间:2016-05-13 02:01:00

标签: apache-spark apache-kafka spark-streaming

我必须执行火花流处理的基准测试。我的进程从kafka中获取消息,处理并加载到ElasticSearch中。上游每秒生成100k条记录。所以我想计算在1秒内处理的消息数量和延迟时间。是否有任何工具可用于监控此问题,或者是否有任何过程来计算此信息。

3 个答案:

答案 0 :(得分:0)

Spark UI可以为您提供帮助,提供您所需的必要详细信息。 默认情况下,spark ui在Web浏览器中的http://:4040上可用(对于单个spark上下文)。 如需帮助,您可以使用以下链接:http://spark.apache.org/docs/latest/monitoring.html

答案 1 :(得分:0)

除了用于确定数据处理速度的Spark UI之外,您还可以使用第三方工具(如spark-perf)对群集执行负载测试,并以此方式获取基准数据好。

答案 2 :(得分:0)

也许有人应该尝试使用Yahoo的流媒体基准,我发现数据砖使用该工具在Spark流媒体和flink之间进行基准测试。

https://github.com/yahoo/streaming-benchmarks https://databricks.com/blog/2017/10/11/benchmarking-structured-streaming-on-databricks-runtime-against-state-of-the-art-streaming-systems.html