默认固定存储器与零复制存储器

时间:2011-03-06 07:09:24

标签: cuda

在CUDA中,我们可以使用固定内存来更有效地将数据从主机复制到GPU,而不是通过主机上的 malloc 分配的默认内存。但是,有两种类型的固定存储器默认固定存储器零复制固定存储器

默认固定内存将数据从主机复制到GPU的速度是正常传输速度的两倍,因此肯定有一个优势(前提是我们有足够的主机内存来锁定页面)

在不同版本的固定内存中,即零复制内存,我们不需要将数据从主机复制到GPU的DRAM中。内核直接从主机内存中读取数据。

我的问题是:这些固定内存类型中的哪一种是更好的编程习惯。

2 个答案:

答案 0 :(得分:32)

我认为这取决于您的申请(否则,他们为什么会提供这两种方式?)

映射,固定内存(零拷贝)在以下任何一种情况下都很有用:

  • GPU本身没有内存,无论如何都使用RAM

  • 您只需加载一次数据,但要对其执行大量计算,并且希望通过它隐藏内存传输延迟。

  • 当内核仍在运行时(例如通信),主机端想要更改/添加更多数据或读取结果

  • 数据不适合GPU内存

请注意,您还可以使用多个流来复制数据并并行运行内核。

固定但未映射的内存更好:

  • 多次加载或存储数据时。例如:您有多个后续内核,分步执行工作 - 不需要每次都从主机加载数据。

  • 执行的计算量不多,加载延迟不会被很好地隐藏

答案 1 :(得分:12)

映射固定存储器在所有方面都与其他类型的固定存储器相同,只是它被映射到CUDA地址空间,因此可以由CUDA内核读取和写入,也可以用于复制引擎的DMA传输。

不映射固定内存的优势有两个:它为您节省了一些地址空间,这在32位平台的世界中可以是一个珍贵的商品化,GPU可以容纳3-4G的RAM。此外,未映射的内存不会被恶意内核意外破坏。但是这个问题足够深刻,CUDA 4.0中的统一地址空间功能将导致默认情况下映射所有固定分配。

除了Sanders / Kandrot书中提出的观点之外,还要记住其他一些事项:

  • 从内核写入主机内存(例如将结果发布到CPU)很不错,因为GPU在这种情况下没有任何延迟,

  • 非常重要的是内存操作要合并 - 否则,即使是SM 2.x和更高版本的GPU也会带来很大的带宽。