docker - 管理多个用户的多个GPU

我有一台带4个GPU的服务器（Ubuntu 16.04）。我的团队分享了这一点，我们目前的方法是将我们的所有工作集中到Docker，并使用get之类的东西将容器限制为GPU。当我们非常清楚谁在使用哪个GPU时，这很有效，但我们的团队已经发展壮大，我想要一种更强大的监控GPU使用方式，并禁止在GPU使用时访问GPU。 $ NV_GPU=0 nvidia-docker run -ti nvidia/cuda nvidia-smi是使用“GPU-Util”的一个信息渠道，但有时GPU可能会在某个时刻拥有0％的GPU-Util，而当前正由容器中的某个人保留。

您对以下内容有什么建议：

跟踪用户何时运行nvidia-smi
当其他用户运行$ NV_GPU='gpu_id' nvidia-docker run
保持更新的日志符合{'gpu0'：'user_name或free'，。。。，'gpu3'：'user_name或free'}，对于每个gpu，它标识使用该gpu运行活动docker容器的用户，或者说它是'free'。实际上，说明用户和链接到gpu的容器是更可取的。
当用户关闭使用gpu的容器时更新日志

我可能也会以错误的方式思考这个问题，因此对其他想法持开放态度。谢谢！

管理多个用户的多个GPU

0 个答案: