Kafka Streams处理器花费很长时间来使用更改日志主题并初始化状态存储

时间:2018-02-12 05:12:38

标签: apache-kafka kafka-consumer-api kafka-producer-api apache-kafka-streams apache-kafka-connect

我正在使用具有KStream-KStream和KStream-KTable连接的流处理器,并且还使用状态存储在删除连接时删除重复项。

我们一直在对此处理器执行负载测试,并且主题中的消息正在增长,这导致流处理器花费很长时间(约1小时)来使用更改日志主题并在重新启动时初始化状态存储/重新部署发生。

我们保留了7天的主题。

1 个答案:

答案 0 :(得分:0)

发生这种情况的原因有很多:

  1. 您的经纪人表现,即您的KStream应用程序可从每个经纪人处获取多少数据
  2. 您的KStream表现
  3. 您的序列化格式(如果您使用Avro,数据大小会更小)
  4. 避免昂贵重启的解决方案是拥有持久的本地状态存储。例如,您可以将默认状态存储文件夹(/ tmp / kafka-streams)映射到某种持久卷