Flink的故障恢复过程

时间:2019-04-03 13:42:47

标签: apache-flink

我想了解flink的详细故障恢复过程。在独立模式下,我猜一些步骤,例如TaskManager故障,首先检测到故障,所有任务停止处理,然后重新部署任务。然后从HDFS下载检查点,每个操作员都将加载状态。加载完成后,源继续发送数据。我对吗?有谁知道正确和详细的恢复过程?

1 个答案:

答案 0 :(得分:0)

Flink通过检查点从故障中恢复。检查点可以本地存储在S3或HDFS中。恢复后,将恢复不同操作员的所有状态。

对于详细的恢复过程,这实际上取决于您的后端。如果您使用的是RocksDB。

  • 您的检查点可以是增量的
  • 如果不需要更改后端,则可以将检查点数据用作保存点。这意味着您可以在从检查点恢复的同时更改并行度。