tensorflow - 分布式Tensorflow明显比非分布式Tensorflow慢

具有3个GPU的作业比使用1.10版的单个GPU的作业（该作业在Google的Cloud ML Engine上运行）花费的时间长3倍（成本是9倍）

当我扩展集群时，我期望训练时间会大致线性加速。

有什么想法可能导致这种情况吗？在我们的applicationRuntime 1.10版本中，很可能是错误。代码，因为在训练其中一个公共样本（例如imdb）时不会重现。

从一台CPU转移到一台GPU具有明显的性能优势。

我们的模型使用Estimator API。