memory - TensorFlow中CPU和GPU之间的DMA

我在NVidia Jetson TX1上运行TensorFlow，当我训练像GoogleNet这样的大型网络时，我遇到内存不足。

TX1中的CPU和GPU没有单独的内存，它们共享一个内存。但是，似乎TensorFlow正在尝试分配单独的内存空间并从CPU端复制到GPU端。因此它需要2倍的内存而不是真正需要的内存。

在我看来，这种情况可以通过CPU和GPU之间的DMA访问来处理。据我所知，TensorFlow在GPU之间使用DMA（不确定哪一个处理这个.TensorFlow？或GPU驱动程序？）。我可以在TensorFlow中使用CPU和GPU之间的DMA吗？或任何其他建议？

编辑：我刚发现CUDA中有 Zero Copy 功能，这正是我想要的。但是，我可以在TensorFlow中使用此功能吗？