Dask。分布式集群管理

时间:2019-01-11 13:02:42

标签: python dask dask-distributed

我正在工作中设置Dask Python集群(30台计算机,平均每个8核)。人们仅使用一部分CPU能力,因此dask-workers将以低优先级在后台运行。所有工作人员都在我的主节点上收听dask-scheduler。仅当我使用它时,它才能完美运行,但是它会被多个人同时使用-因此,我需要能够管理此集群:

  • 验证用户身份,拒绝未知内容
  • 确定谁提交了哪些职位
  • 限制每个用户提交的作业数量
  • 限制每个作业的计算超时时间
  • 以管理员身份杀死任何工作
开箱即用的

dask.distributed提供了上述一些功能。您能否请您提供一些解决方案的建议(可能是混合式Dask和其他功能)?

1 个答案:

答案 0 :(得分:0)

通常,人们使用集群管理器,例如Kubernetes,Yarn,SLURM,SGE,PBS或其他。该系统处理用户身份验证,资源管理等。然后,用户可以根据需要使用Dask-kubernetes,Dask-yarn,Dask-jobqueue项目之一在集群上创建自己的短期调度程序和工作程序。