雷迪斯哨兵故障转移未在docker swarm中发生

时间:2019-07-04 14:45:17

标签: docker redis docker-compose docker-swarm redis-sentinel

我一直在尝试使用docker-compose文件以哨兵模式设置Redis。 以下是我的撰写文件的内容-

version: '3.3'
services:
  redis-master:
    image: redis:latest
    deploy:
      replicas: 1
    networks:
      - Overlay_Network

  redis-slave:
    image: redis:latest
    command: redis-server --slaveof redis-master 6379
    depends_on:
      - redis-master
    deploy:
      replicas: 2
    networks:
      - Overlay_Network

  sentinel:
    image: sentinel:latest
    environment:
      - SENTINEL_DOWN_AFTER=5000
      - SENTINEL_FAILOVER=5000
      - REDIS_MASTER=redis-master
    depends_on:
      - redis-master
      - redis-slave
    deploy:
      replicas: 3
    networks:
      - Overlay_Network

networks:
 Overlay_Network:
    external:
      name: Overlay_Network

在这里,我正在创建三个服务redis-master,redis-slave和sentinel(使用的本地docker映像根据传递的env变量以哨兵模式启动redis)。我遵循此步骤来创建前哨图像https://gitlab.ethz.ch/amiv/redis-cluster/tree/master

当我使用docker-compose运行服务时。很好。

docker-compose -f docker-compose.yml up -d

它以所有单个实例启动所有服务。后来,我手动将redis-slave缩放到2个实例,将哨兵缩放到3个实例。 然后,当我停止redis-master的容器时,哨兵注意到它,并将一个从属节点作为主节点。它按预期工作。

当我使用docker stack deploy命令并使用同一撰写文件以群集模式运行它时,就会发生此问题。

docker stack deploy -c docker-compose.yml <stack-name>

它将启动所有服务,1个实例用于redis-master,2个实例用于redis-slave,3个用于哨兵。它使用覆盖网络。 当我停止redis-master的容器时,sentinel无法将任何从属节点升级为master模式。 似乎哨兵无法添加和注意从属节点。它会添加,然后显示为关闭状态。 这是前哨日志文件的片段。

1:X 04 Jul 2019 14:31:36.465 # oO0OoO0OoO0Oo Redis is starting oO0OoO0OoO0Oo
1:X 04 Jul 2019 14:31:36.465 # Redis version=5.0.5, bits=64, commit=00000000, modified=0, pid=1, just started
1:X 04 Jul 2019 14:31:36.465 # Configuration loaded
1:X 04 Jul 2019 14:31:36.466 * Running mode=sentinel, port=26379.
1:X 04 Jul 2019 14:31:36.466 # WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is set to the lower value of 128.
1:X 04 Jul 2019 14:31:36.468 # Sentinel ID is e84a635f6cf4c0ee4454922a557a7c0fba00fadd
1:X 04 Jul 2019 14:31:36.468 # +monitor master mymaster 10.0.22.123 6379 quorum 2
1:X 04 Jul 2019 14:31:36.469 * +slave slave 10.0.22.125:6379 10.0.22.125 6379 @ mymaster 10.0.22.123 6379
1:X 04 Jul 2019 14:31:38.423 * +sentinel sentinel f92b9499bff409558a2eb985ef949dfc7050c528 10.0.22.130 26379 @ mymaster 10.0.22.123 6379
1:X 04 Jul 2019 14:31:38.498 * +sentinel sentinel 6e32d6bfea4142a0bc77a74efdfd24424cbe026b 10.0.22.131 26379 @ mymaster 10.0.22.123 6379
1:X 04 Jul 2019 14:31:41.538 # +sdown slave 10.0.22.125:6379 10.0.22.125 6379 @ mymaster 10.0.22.123 6379

我认为这可能是由于容器的启动顺序引起的。但是depends_on字段对于堆栈模式无效,我找不到其他方法来定义堆栈模式下的开始顺序。

当我执行docker network检查覆盖网络时,这是输出

"Containers": {
    "57b7620ef75956464ce274e66e60c9cb5a9d8b79486c5b80016db4482126916b": {
        "Name": "sws_sentinel.3.y8sdpj8609ilq22xinzykbxkm",
        "EndpointID": "a95ab07b07c68a32227be3b5da4d378b82f24aab4279bfaa13899a2a7184ce09",
        "MacAddress": "02:42:0a:00:16:84",
        "IPv4Address": "10.0.22.132/24",
        "IPv6Address": ""
    },
    "982222f1b87e1483ec791f382678ef02abcdffe74a5df13a0c0476f7f3a599a7": {
        "Name": "sws_redis-slave.1.uxwkndhkdnizyicwulzli964r",
        "EndpointID": "f5f8fa056622b1529351355c3760c3f45357c7b3de3fe4d2ee90e2d490328f2a",
        "MacAddress": "02:42:0a:00:16:80",
        "IPv4Address": "10.0.22.128/24",
        "IPv6Address": ""
    },
    "c55376217215a1c11b62ac9d22d28eaa1bcda89484a0202b208e557feea4dd35": {
        "Name": "sws_redis-slave.2.s8ha5xmvx6sue2pj6fav8bcbx",
        "EndpointID": "6dcb13e23a8b4c0b49d7dc41e5813b317b8d67377ac30a476261108b8cdeb3f8",
        "MacAddress": "02:42:0a:00:16:7f",
        "IPv4Address": "10.0.22.127/24",
        "IPv6Address": ""
    },
    "cd6d72547ef3fb34ece45ad0201555124505379182f7445373025e1b9a115554": {
        "Name": "sws_redis-master.1.3rhfihzqip2a44xq2uerhqkjt",
        "EndpointID": "9074f9c911e03de0f27e4fb6b75afdf6bb38a111a511738451feb5e64c8dbff3",
        "MacAddress": "02:42:0a:00:16:7c",
        "IPv4Address": "10.0.22.124/24",
        "IPv6Address": ""
    },
    "lb-SA_Monitor_Overlay": {
        "Name": "SA_Monitor_Overlay-endpoint",
        "EndpointID": "2fb84ac75f5eee015b80b55713da83d1afb7dfa7ed4c1f5eda170f4b8daf8884",
        "MacAddress": "02:42:0a:00:16:7d",
        "IPv4Address": "10.0.22.125/24",
        "IPv6Address": ""
    }
}

在这里我看到从属服务器正在ip 10.0.22.128和10.0.22.127上运行,但是在哨兵日志文件中,它正在尝试使用ip 10.0.22.125添加从属服务器。这是为什么?这可能是个问题吗?

让我知道是否需要更多详细信息。

1 个答案:

答案 0 :(得分:0)

我得出结论,这是由于docker swarm默认负载均衡器导致的。 Sentinel从主节点获取有关从站的信息。但是奴隶并未在docker网络中获得其实际IP地址的注册。看来是负载均衡的IP。因此,哨兵无法使用该IP来访问从站,这表明从站已关闭。

他们还在文档页面上提到了它

https://redis.io/topics/replication [在Docker和NAT中配置复制]

https://redis.io/topics/sentinel [Sentinel,Docker,NAT和可能的问题]

作为对此的解决方案,我制作了自定义Dockerfile来启动redis-slave节点。它使用redis.conf和entrypoint.sh脚本。在entrypoint.sh中,我获得了容器的真实IP并将其写入redis.conf,最后一步,使用更新后的redis.conf启动redis-server。

slave-announce-ip <CONTAINER_IP_ADDRESS>
slave-announce-port 6379

您还可以对前哨节点执行类似的步骤。

现在,将从属将使用其真实的容器IP地址进行注册,端口和哨兵可以与它们进行通信。

相关问题