tensorflow - 在GPU工作站上设置kubernetes集群的最佳实践

我想找出当前的最佳实践，用于在运行Ubuntu 18.04 LTS的Dell Alienware Aurora工作站上为基于GPU的Tensorflow工作负载设置kubernetes集群。在将服务/容器部署到功能完善的k8s集群之前，这将成为我的服务平台。我不确定这种设置的正确策略是什么样的。这里有一些可能性：

带有virtualbox驱动程序的Minikube，VM中的工作节点
带有--vm-driver = none的Minikube，依赖docker
在主服务器上启用了计划播客的Kubeadm
Kubeadm-dind（泊坞窗中的泊坞窗）

更新：添加了kubeadm选项。有人还能在docker解决方案中对docker进行评论。服务/吊舱是否可以从docker安装程序中的docker到多节点远程计算机/云实例设置无缝地工作？

很高兴听到kubernetes专家或熟悉一台物理机器上的tensorflow / GPU工作负载的人的来信。

在GPU工作站上设置kubernetes集群的最佳实践

1 个答案: