具有GPU的GCP kubernetes节点被抢占为时过早

时间:2019-11-06 14:52:22

标签: kubernetes google-cloud-platform google-kubernetes-engine kubeflow

我在us-central1-a有一个带有自定义GPU驱动的可抢占节点池的kubeflow k8s集群: enter image description here

我在这些GPU节点上运行了kubeflow笔记本服务器。 由于某些神秘的原因,节点在启动后(5-10分钟)很快收到了compute.instances.preempted消息: enter image description here

为什么会这样?

1 个答案:

答案 0 :(得分:4)

由于您已经创建了可抢占节点池,因此这几乎是可以预期的行为。 GCE可以终止可抢占的实例at any time,并且您唯一真正的保证就是不会向您收取该实例的费用(但将向您收取任何请求的高级OS的费用,而COS不是其中一个)它们运行了不到一分钟(当然,它们总是会在24小时后被抢占)。

GPU节点的需求可能很高,并且与其他可抢占实例一样,这将取决于特定区域和一天中的时间。如果需要实例保持可用状态,则应使用全价实例。使用GKE,可以autoscale GPU nodes来帮助控制成本。