在CUDA中在设备内存上分配2D阵列

时间:2009-06-26 04:38:38

标签: multidimensional-array memory-management 2d cuda device

如何在Cuda的设备内存中分配和传输(进出主机)2D阵列?

3 个答案:

答案 0 :(得分:16)

我找到了解决这个问题的方法。我没有必要压扁阵列。

内置cudaMallocPitch()功能完成了这项工作。我可以使用cudaMemcpy2D()函数将数组传入和传出设备。

例如

cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);

这将创建一个大小为a * b的二维数组,其间距为参数传递。

以下代码创建一个2D数组并在元素上循环。它很容易编译,你可以使用它。

#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50

// Device code
__global__ void kernel(float* devPtr, int pitch)
{
    for (int r = 0; r < height; ++r) {
        float* row = (float*)((char*)devPtr + r * pitch);
        for (int c = 0; c < width; ++c) {
             float element = row[c];
        }
    }
}

//Host Code
int main()
{

float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}

答案 1 :(得分:3)

将其展平:使其成为一维的。看看它是如何完成的here

答案 2 :(得分:2)

您的设备代码可能更快。尝试更多地使用线程。

__global__ void kernel(float* devPtr, int pitch)
{
    int r = threadIdx.x;

    float* row = (float*)((char*)devPtr + r * pitch);
    for (int c = 0; c < width; ++c) {
         float element = row[c];
    }
}

然后计算适当的块和线程分配,以便每个线程处理一个元素。