您如何管理100个虚拟服务器进行推理?

时间:2019-01-01 14:58:05

标签: tensorflow

我需要引导100个虚拟服务器,并将每个虚拟服务器用于tensorflow模型推断30天。有什么工具可以做到这一点?

我目前使用映像引导服务器,并手动打开两个tmux会话。一个会话用于模型客户端,另一个会话用于tensorflow服务器。如果有任何服务器CPU停止工作,我会收到一条松弛通知,以了解服务器是否发生故障(我也手动进行SSH调试/重新启动服务器)。

将感谢您的提示!

0 个答案:

没有答案