Cloud Dataproc是否支持高可用性?

时间:2016-09-29 18:43:07

标签: google-cloud-dataproc

我担心为Google Cloud Dataproc群集设置单个主节点可能会引入单点故障。我希望我的集群在出现意外的主故障的情况下(更具弹性)。

是否可以配置我的Cloud Dataproc群集,以便它使用某种形式的高可用性来降低单个主服务器故障的风险?理想情况下,我也希望使用YARN / Hadoop / HDFS高可用性的标准方法,因此不需要(或必需)定制软件。

1 个答案:

答案 0 :(得分:1)

Google Cloud Dataproc在服务中内置了高可用性(HA)模式。在HA模式下,Cloud Dataproc集群支持HDFS High AvailabilityYARN High Availability,并且两个组件都配置为允许不间断的YARN和HDFS操作,尽管任何单节点故障/重新启动。

有关Cloud Dataproc HA模式的一些重要事项需要注意:

  • HA功能目前处于测试阶段
  • 所有节点都使用Apache Zookeeper进行故障转移
  • 通过Cloud Dataproc Jobs API提交的作业不被视为“高可用性”,并且仍将在运行相应作业驱动程序的主节点发生故障时终止

有关Cloud Dataproc HA模式的更多信息,请see the documentation。该文档还提供了有关如何在作业工具/ API之外向集群提交工作的说明。