如何在TensorFlow中使用分布式DNN培训?

时间:2015-11-09 19:23:22

标签: python parallel-processing deep-learning tensorflow

谷歌今天发布了TensorFlow。

我一直在寻找代码,我在代码或API中没有看到任何有关GPU服务器集群培训的内容。

它是否已经分发了培训功能?

3 个答案:

答案 0 :(得分:14)

已更新:

发布于2016年2月26日,由合着者Derek Murray在原始问题here中宣布,并使用gRPC进行进程间通信。

上一页:

在上述更新之前, TensorFlow 的分布式实施尚未发布。支持分布式实施是this issue的主题,共同作者Vijay Vasudevan wrote

  

我们正在努力使分布式实现可用,它是   目前还没有在初始版本中

和杰夫迪恩后来提供了an update

  

我们目前的内部分布式扩展有点纠结   与谷歌内部基础设施,这就是我们发布的原因   首先是单机版。代码还没有在GitHub中,因为   它依赖于Google代码库的其他部分   当下,其中大部分已被修剪,但还有一些剩余   的。

     

我们意识到分布式支持非常重要,而且它是一个   我们目前优先考虑的主要功能。

答案 1 :(得分:8)

我们花了几个月的时间,但今天标志着最初distributed TensorFlow runtime的发布。这包括支持多台机器,每台机器都有多个GPU,并由gRPC提供通信。

当前版本包含必要的后端组件,以便您可以手动组装群集并从客户端程序连接到群集。有关详细信息,请参阅readme

答案 2 :(得分:1)

更新

你可能已经注意到了。 Tensorflow已经支持分布式DNN培训很长一段时间了。有关详细信息,请参阅其官方网站。

=============================================== ==========================

不,它还不支持分发培训,这有点令人失望。但我认为很难从单机扩展到多机。与其他开源库(如Caffe)相比,TF的数据图结构更适合跨机器任务。