Question

我正在尝试在CUDA中并行地实现quickHull算法（用于凸包）。它适用于input_size＆lt; = 1百万。当我尝试1000万点时，程序崩溃了。我的图形卡大小为1982 MB，算法中的所有数据结构对于此输入大小总共需要不超过600 MB，这小于可用空间的50％。

通过注释掉我的内核行，我发现当我尝试访问数组元素时发生了崩溃，我尝试访问的元素的索引不是超出界限（双重检查）。以下是崩溃的内核代码。

for(unsigned int i = old_setIndex; i < old_setIndex + old_setS[tid]; i++) 
{

    int pI = old_set[i];
    if(pI <= -1 || pI > pts.size())
    {               
        printf("Thread %d: i = %d, pI = %d\n", tid, i, pI);
        continue;
    }
    p = pts[pI];

    double d = distance(A,B,p);

    if(d > dist) {
        dist = d;
        furthestPoint = i;
        fpi = pI;
    }
}
//fpi = old_set[furthestPoint]; 
//printf("Thread %d: Furthestpoint = %d\n", tid, furthestPoint);

当我在for循环后取消注释语句（数组访问和printf）时，我的代码崩溃了。我无法解释错误，因为furthestPoint总是在old_set数组大小的范围内。 Old_setS存储每个线程可以操作的较小数组的大小。即使只是尝试打印furthestPoint（最后一行）的值而没有上面的数组访问语句，它也会崩溃。

输入大小<= 1百万的上述代码没有问题。在1000万的情况下，我是否会在设备中溢出一些缓冲区？

请帮助我找到坠机的来源。

Answer 1

您的代码中没有超出范围的内存访问权限（或者至少没有导致您看到的症状的内存访问权限。）

正在发生的事情是你的内核被显示驱动程序杀死了，因为它需要花费太多时间在你的显示器GPU上执行。所有CUDA平台显示驱动程序都包含GPU上任何操作的时间限制。这样做是为了防止显示器冻结足够长的时间，因为操作系统内核发生混乱或用户发生恐慌并认为机器已经崩溃。在您正在使用的Windows平台上，时间限制约为2秒。

部分误导你认为问题的根源是数组地址是代码中的注释会使问题消失。但真正发生的是编译器优化的工件。当您注释掉全局内存写入时，编译器会识别出导致存储值的计算未使用，并从它发出的汇编代码中删除所有代码（google“nvcc dead code removal”以获取更多信息）。这样可以使代码运行得更快并将其置于显示驱动程序时间限制之下。

有关变通方法，请参阅this recent stackoverflow question and answer

CUDA Convex Hull程序在大输入时崩溃

1 个答案: