Question

我正在尝试寻找程序中的错误。它产生

[vaio:10404] Signal: Segmentation fault (11) 
[vaio:10404] Signal code: Address not mapped (1) 
[vaio:10404] Failing at address: 0x210000
[vaio:10405] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0xfcb0) [0x7fa7857ffcb0]
[vaio:10405] [ 1] /lib/x86_64-linux-gnu/libc.so.6(+0x14fe20) [0x7fa785580e20]
[vaio:10405] [ 2] /usr/lib/libcuda.so.1(+0x1b1f49) [0x7fa78676bf49]

0x210000是存储在GPU内存中的地址。我没有统一的地址空间（由于卡的限制：sm_12）。

通过mpiexec -n 2运行程序时出现问题。也就是说，我启动了两个CPU进程，都在同一个（！）GPU上创建了自己的上下文（只安装了1个GPU）。像这样：

cuInit(0);
cuDeviceGet(&cuDevice, 0); // get device number 0
cuCtxCreate(&cuContext, 0, cuDevice); // create context
cuMemAlloc( &mem , size );  // allocate memory pool (hundreds of MB)

（这里简化了 - 检查所有cuda调用是否有错误返回）

我现在使用此设置非常成功（多个主机进程共享相同的GPU）。但是，那是在使用CUDA运行时API时。现在，我正在切换到驱动程序API。

为了解决此问题，我会转出上述代码的mem。事实证明，cuMemAlloc返回的内存地址对于两个进程都是相同的！这让我很难过。转储出来了：

process 0: allocate internal buffer: unaligned ptr = 0x210000  aligned ptr = 0x210000
process 1: allocate internal buffer: unaligned ptr = 0x210000  aligned ptr = 0x210000

我立即检查了从未出现过此类问题的旧代码（运行时API）。事实证明它报告了两个进程（共享同一设备）相同的内存地址。这从未引起我的注意。

我觉得很难相信。为了明确这一点：两个进程都使用cudaMalloc（运行时API）和cuMalloc（驱动程序API）（大卡上400MB）请求设备内存，并且两个进程都返回相同的地址？我确信没有一个进程正在推进并且已经释放了内存，因此第一个进程可以重用相同的内存，因为第一个进程已经终止。不，这个内存用作内存池来提供后续的内存分配，并且它们之间有很多同步点。程序终止时释放池。

任何人都知道如何向两个进程报告相同的指针值（内存地址），但在GPU上这指的是不同的内存？（它必须执行的计算是正确的。如果内存池重叠，情况就不是这样了）。据我所知，这是不可能的。我错过了什么？

Answer 1

您缺少虚拟寻址的概念。

每个CPU线程都有自己的CUcontext，每个CUcontext都有自己的GPU 虚拟地址空间。从API返回的地址是虚拟的，并且主机驱动程序和/或设备将虚拟地址转换为GPU存储器中的绝对地址。有充分的证据表明GPU有一个专用的TLB板载，正是出于这个目的。

cudaMalloc在不同的CPU线程上返回相同的内存地址

1 个答案: