在spark streaming application

时间:2017-04-19 10:28:49

标签: apache-kafka spark-streaming

我是Stack Overflow的新人。我正在为我遇到的问题寻求帮助。谢谢你。

我最近正在开发一个火花流应用程序。这些基本信息:

  1. spark version:1.6.1
  2. spark streaming source:kafka
  3. 获取数据方法:直接
  4. 持续时间:10s
  5. kafka版本:2.10_0.8.2.1
  6. kafka主题分区:10
  7. 因为kafka集群可能已经存在并且可能包含大量数据。所以我将配置添加到spark conf中,如下所示:

    1. spark.streaming.backpressure.enabled true
    2. spark.streaming.kafka.maxRatePerPartition 6000
    3. 使用配置我成功限制了火花司机首次启动时的消耗速度。最大事件大小为6000 * 10 * 10 = 600000。

      然后我遇到了我的问题。看图片。

      我没有足够的声誉上传图片所以我会描述它。

      批量时间 输入尺寸

      2017/04/19 18:08:20 100个活动

      2017/04/19 18:08:10 100个活动

      2017/04/19 18:08:00 60000活动

      ...

      2017/04/19 18:07:20 60000活动

      2017/04/19 18:07:10 60000活动

      消耗速度从600000突然减慢到100.我尝试了几次,结果相同。重新启动时,消耗速度为600000,经过近10批次,速度突然降至100。

      我尝试减少maxRatePerPartition数量,但它仍然会逐渐减慢,例如从30000到2650,最后是100.并且没有警告或错误日志出来。我很困惑。

      我在网上搜索了很长时间。但没用。请帮助或尝试提供一些如何实现这一点的想法。谢谢。

0 个答案:

没有答案