python - 如何在TensorFlow中使用分布式DNN培训？

如何在TensorFlow中使用分布式DNN培训？

时间：2015-11-09 19:23:22

标签： python parallel-processing deep-learning tensorflow

谷歌今天发布了TensorFlow。

我一直在寻找代码，我在代码或API中没有看到任何有关GPU服务器集群培训的内容。

它是否已经分发了培训功能？

3 个答案:

答案 0 :(得分：14)

已更新：

发布于2016年2月26日，由合着者Derek Murray在原始问题here中宣布，并使用gRPC进行进程间通信。

上一页：

在上述更新之前， TensorFlow 的分布式实施尚未发布。支持分布式实施是this issue的主题，共同作者Vijay Vasudevan wrote：

我们正在努力使分布式实现可用，它是目前还没有在初始版本中

和杰夫迪恩后来提供了an update：

我们目前的内部分布式扩展有点纠结   与谷歌内部基础设施，这就是我们发布的原因   首先是单机版。代码还没有在GitHub中，因为   它依赖于Google代码库的其他部分   当下，其中大部分已被修剪，但还有一些剩余   的。

我们意识到分布式支持非常重要，而且它是一个   我们目前优先考虑的主要功能。

答案 1 :(得分：8)

我们花了几个月的时间，但今天标志着最初distributed TensorFlow runtime的发布。这包括支持多台机器，每台机器都有多个GPU，并由gRPC提供通信。

当前版本包含必要的后端组件，以便您可以手动组装群集并从客户端程序连接到群集。有关详细信息，请参阅readme。

答案 2 :(得分：1)

更新

你可能已经注意到了。 Tensorflow已经支持分布式DNN培训很长一段时间了。有关详细信息，请参阅其官方网站。

=============================================== ==========================

上

不，它还不支持分发培训，这有点令人失望。但我认为很难从单机扩展到多机。与其他开源库（如Caffe）相比，TF的数据图结构更适合跨机器任务。