当停止一个消费者并立即启动它时,消费者群体需要大约10秒来进行重新平衡

时间:2018-01-25 05:30:37

标签: apache-kafka

1。问题desc

如果停止一个消费者并立即启动此消费者,消费者群体需要大约10秒来进行重新平衡。

但如果停止一个消费者并等待大约10秒,然后启动该消费者,则不会出现此问题。

2。 ENV

kakfa版本:0.11.0.1

第3。演示

  1. Producer1Demo.java(制作人 - 向主题发送消息:topic1)
  2. Producer2Demo.java(Producer-B向主题发送消息:topic2)
  3. Consumer1Demo.java(Consumer-A从主题获取消息:topic1)
  4. Consumer2Demo.java(Consumer-B从主题获取消息:topic2)
  5. 同一组group1中的Consumer-A和Consumer-B, 制作人的代码如下

     public static void main(String[] args) throws Exception{
            Properties props = new Properties();
            props.put("bootstrap.servers", "ip:9092");
            props.put("acks", "all");
            props.put("retries", 0);
            props.put("batch.size", 16384);
            props.put("linger.ms", 1);
            props.put("buffer.memory", 33554432);
            props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
            props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
            Producer<String, String> producer = new KafkaProducer<>(props);
            boolean flag = true;
            int i = 0;
            while(flag){
                if(i>=1000){
                    flag = false;
                }
                producer.send(new ProducerRecord("topic1", "topic<1>-"+ i));
                i++;
                Thread.sleep(1000);
            }
            producer.close();
        }
    

    消费者的代码如下

     public static void main(String []args){
            Properties props = new Properties();
            props.put("bootstrap.servers", "ip:9092");
            props.put("group.id", "group1");
            props.put("enable.auto.commit", "true");
            props.put("auto.commit.interval.ms", "1000");
            props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
            props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
            KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
            consumer.subscribe(Arrays.asList("topic1"));
            boolean flag = true;
            while (flag) {
                ConsumerRecords<String, String> records = consumer.poll(100);
                for (ConsumerRecord<String, String> record : records)
                    System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
            }
            consumer.close();
        }
    

    4.如何重新出现此问题

    1. 首先从四个java的主要方法开始,然后是Consumer-A和 Consumer-B可以从相应的主题中获取消息 连续
    2. 然后,我停止Consumer1Demo.java的进程并启动 Consumer1Demo.java的主要方法是即时的,Consumer-B将会为此而烦恼 大约10秒重新加入组group1,下面是Consumer-A的日志 日志:
    3. Discovered coordinator 10.105.168.92:9092 (id: 2147483646 rack: null) for group group1. Revoking previously assigned partitions [] for group group1 (Re-)joining group group1 <will sleep about 10s> Successfully joined group group1 with generation 52 Setting newly assigned partitions [topic1-0, topic1-1, topic1-6, topic1-7, topic1-2, topic1-3, topic1-4, topic1-5] for group group1

      Consumer-B的日志 Revoking previously assigned partitions [topic2-0, topic2-1, topic2-2, topic2-7, topic2-3, topic2-4, topic2-5, topic2-6] for group group1 (Re-)joining group group1 <will sleep about 10s> Successfully joined group group1 with generation 52 Setting newly assigned partitions [topic2-0, topic2-1, topic2-2, topic2-7, topic2-3, topic2-4, topic2-5, topic2-6] for group group1 offset = 215, key = null, value = testMessageTopic<2>-318

      通过日志,我们可以看到,消费者-A和消费者-B也将花费大约10秒加入该组,看起来他们都需要得到代相同的价值:52,这一步似乎花费了10秒。

      5.如何避免此问题。

      1. 首先,停止Consumer-A进程,等待大约15秒,然后, 启动Consumer1Demo.java main启动Consumer-A,这个问题就会消失。
      2. 然后让我们分析日志。
      3. &lt; 5.2.1&gt;在执行第1步之前,Consumer-A和Consumer-B的生成值也是63 &lt; 5.2.2&gt;停止Consumer-A流程后,Consumer-B将立即重新加入该组并获得代值:64

        &lt; 5.2.3&gt;等待大约15秒后,再次启动Consumer1Demo.java main。消费者-A将立即重新加入该组并获得代值:65

        &lt; 5.2.4&gt;然后,当由于Consumer-A再次重新加入而更改生成值时,Consumer-B也将重新加入具有生成值的组:65。

        5.根本原因

        1. 当一个消费者失望时,消费者群体将重新平衡并获得新的消费者群体 生成值(oldValue + 1)
        2. 当一个消费者启动时,consumber group也会做重新平衡 并获得新一代价值(oldValue + 1)
        3. 在这种情况下,似乎步骤5.1和步骤5.2同时发生,因此可能存在资源竞争,因此协调员可能花费10秒来解决问题。

          6.我的问题

          我不知道我是否正确分析了问题,还有另一个原因吗?

1 个答案:

答案 0 :(得分:0)

由于两个使用者1和使用者2在同一个使用者组中,因此当重新启动或停止其中一个使用者时,该使用者组将执行do rebalance操作,这将花费大约10 s。

更改为不同的消费群体后,问题就消失了。

相关问题