Flink:如果单个任务管理器崩溃,是否应该重新启动整个集群?

时间:2019-01-18 09:51:39

标签: apache-flink flink-streaming

我们正在运行一个带有2个作业管理器和3个任务管理器的独立Flink集群。每当TM崩溃时,我们只需重新启动该特定TM并继续进行处理即可。

但是,阅读关于this问题的评论后,我们似乎需要重新启动构成集群的所有5个节点来处理单个TM的故障。我读对了吗?如果仅重启崩溃的TM并让正常运行的TM原样运行,将会带来什么后果?

1 个答案:

答案 0 :(得分:1)

对不起,如果我在其他地方的回答不清楚,但是您在做什么很好。也许说工作正在“重置”会更准确,这是自动发生的。由于检查点在全局上是一致的,因此所有任务管理器都应从检查点中记录的状态倒退并重新开始处理,这一点很重要,但是Flink会为您处理(一旦再次提供了必要的资源)。