cuda - 在CUDA中使用寄存器存储器

只有本地变量才有资格驻留在寄存器中（另请参阅Declaring Variables in a CUDA kernel）。您无法直接控制哪些变量（标量或静态数组）将驻留在寄存器中。编译器将自己做出选择，努力争取注册备用的性能。

使用nvcc编译器的maxrregcount选项可以限制寄存器的使用。

您还可以将大多数小的1D，2D数组放在共享内存中，或者，如果访问常量数据，则将此内容放入常量内存（缓存非常接近注册为L1缓存内容）。

在CUDA中处理计算绑定内核时减少寄存器使用的另一种方法是分阶段处理数据，使用多个全局内核函数调用并将中间结果存储到全局内存中。每个内核将使用更少的寄存器，这样每个SM的更多活动线程将能够隐藏加载/存储数据移动。这种技术结合正确使用流和异步数据传输在大多数情况下非常成功。

关于设备功能的使用，我不确定，但我想调用函数的寄存器内容将被移动/存储到本地存储器（L1缓存等），就像使用寄存器溢出时一样太多局部变量（见CUDA Programming Guide -> Device Memory Accesses -> Local Memory）。此操作将释放一些被调用设备功能的寄存器。设备功能完成后，它们的局部变量不再存在，并且调用者函数现在可以再次使用寄存器并填充先前保存的内容。

请记住，出于性能原因，编译器可以内联在全局内核的相同源代码中定义的小型设备函数：当发生这种情况时，生成的内核通常需要更多的寄存器。

在CUDA中使用寄存器存储器

1 个答案: