管理多个用户的多个GPU

时间:2017-06-14 14:40:08

标签: docker gpu nvidia gpu-programming multi-gpu

我有一台带4个GPU的服务器(Ubuntu 16.04)。我的团队分享了这一点,我们目前的方法是将我们的所有工作集中到Docker,并使用get之类的东西将容器限制为GPU。当我们非常清楚谁在使用哪个GPU时,这很有效,但我们的团队已经发展壮大,我想要一种更强大的监控GPU使用方式,并禁止在GPU使用时访问GPU。 $ NV_GPU=0 nvidia-docker run -ti nvidia/cuda nvidia-smi是使用“GPU-Util”的一个信息渠道,但有时GPU可能会在某个时刻拥有0%的GPU-Util,而当前正由容器中的某个人保留。

您对以下内容有什么建议:

  1. 跟踪用户何时运行nvidia-smi
  2. 当其他用户运行$ NV_GPU='gpu_id' nvidia-docker run
  3. 时踢错误
  4. 保持更新的日志符合{'gpu0':'user_name或free',。 。 。,'gpu3':'user_name或free'},对于每个gpu,它标识使用该gpu运行活动docker容器的用户,或者说它是'free'。实际上,说明用户和链接到gpu的容器是更可取的。
  5. 当用户关闭使用gpu的容器时更新日志
  6. 我可能也会以错误的方式思考这个问题,因此对其他想法持开放态度。谢谢!

0 个答案:

没有答案