Question

我想计算Cuda中整个图像的平均值。为了测试2D数组的减少效果，我在下面编写了这个内核。最终输出o应该是所有图像值的总和。输入g是2D阵列，每个像素的值为1。但是这个程序的结果是总和为0。对我来说有点奇怪。

我在本教程中模仿1D数组的减少http://developer.download.nvidia.com/compute/cuda/1.1-Beta/x86_website/projects/reduction/doc/reduction.pdf我写了这个2D表格。我是Cuda的新手。欢迎提出有关潜在错误和改进的建议！

只需添加一条评论。我知道计算一维数组的平均值是有意义的。但我想利用更多并测试更复杂的还原行为。这可能不对。但只是一个考验。希望任何人都能给我更多关于减少常规做法的建议。

#include <iostream>
#include <stdio.h>
#include <stdlib.h>
#include <time.h>

cudaEvent_t start, stop;
float elapsedTime;

__global__ void 
reduce(float *g, float *o, const int dimx, const int dimy)
{
extern __shared__ float sdata[];

unsigned int tid_x = threadIdx.x;
unsigned int tid_y = threadIdx.y;

unsigned int i = blockDim.x * blockIdx.x + threadIdx.x;
unsigned int j = blockDim.y * blockIdx.y + threadIdx.y; 

if (i >= dimx || j >= dimy)
    return;

sdata[tid_x*blockDim.y + tid_y] = g[i*dimy + j];

__syncthreads();

for(unsigned int s_y = blockDim.y/2; s_y > 0; s_y >>= 1)
{
    if (tid_y < s_y)
    {
        sdata[tid_x * dimy + tid_y] += sdata[tid_x * dimy + tid_y + s_y];
    }
    __syncthreads();
}

for(unsigned int s_x = blockDim.x/2; s_x > 0; s_x >>= 1 )
{

    if(tid_x < s_x)
    {
        sdata[tid_x * dimy] += sdata[(tid_x + s_x) * dimy];
    }
    __syncthreads();
}

float sum;

if( tid_x == 0 && tid_y == 0)
{ 
    sum = sdata[0];
    atomicAdd (o, sum);   // The result should be the sum of all pixel values. But the program produce 0
}

//if(tid_x==0 && tid__y == 0 ) 
    //o[blockIdx.x] = sdata[0];
}

int
main()
{   
int dimx = 320;
int dimy = 160;
int num_bytes = dimx*dimy*sizeof(float);

float *d_a, *h_a, // device and host pointers
            *d_o=0, *h_o=0;

h_a = (float*)malloc(num_bytes);
h_o = (float*)malloc(sizeof(float));

srand(time(NULL));


for (int i=0; i < dimx; i++)
{   
    for (int j=0; j < dimy; j++)
    {
        h_a[i*dimy + j] = 1;
    }
}

cudaMalloc( (void**)&d_a, num_bytes );
cudaMalloc( (void**)&d_o, sizeof(int) );

cudaMemcpy( d_a, h_a, num_bytes, cudaMemcpyHostToDevice);
cudaMemcpy( d_o, h_o, sizeof(int), cudaMemcpyHostToDevice); 

dim3 grid, block;
block.x = 4;
block.y = 4;
grid.x = dimx / block.x;
grid.y = dimy / block.y;

cudaEventCreate(&start);
cudaEventRecord(start, 0);

int sizeofSharedMemory = dimx*dimy*sizeof(float);

reduce<<<grid, block, sizeofSharedMemory>>> (d_a, d_o, block.x, block.y);

cudaEventCreate(&stop);
cudaEventRecord(stop, 0);
cudaEventSynchronize(stop);

cudaEventElapsedTime(&elapsedTime, start, stop);
std::cout << "This kernel runs: " << elapsedTime << "ms" << std::endl; 

std::cout << block.x << " " << block.y << std::endl;
std::cout << grid.x << " " << grid.y << std::endl;
std::cout << dimx <<  " " << dimy << " " << dimx*dimy << std::endl;

cudaMemcpy( h_a, d_a, num_bytes, cudaMemcpyDeviceToHost );
cudaMemcpy( h_o, d_o, sizeof(int), cudaMemcpyDeviceToHost );

std::cout << "The sum is:" << *h_o << std::endl;

free(h_a);
free(h_o);
cudaFree(d_a);
cudaFree(d_o);

}

Answer 1

如果你做了基本cuda error checking，你会发现你的reduce内核甚至没有运行。原因如下：

int dimx = 320;
int dimy = 160;
...
int sizeofSharedMemory = dimx*dimy*sizeof(float); // = 204800

reduce<<<grid, block, sizeofSharedMemory>>> (d_a, d_o, block.x, block.y);
                          ^
                          |
                         204800 is illegal here

您不能动态（或任何其他方式）请求204800字节的共享内存。最大值略小于48K字节。

如果你做了正确的cuda错误检查，你会发现你的内核没有运行，并且会得到一条有用的错误信息，表明启动配置（＆lt;＆lt;＆lt;＆lt;＆gt;＆gt;＆gt; ;＆gt;）无效。在每块的基础上请求共享内存，当每个块仅包含4x4线程阵列时，您需要请求足够的共享内存来覆盖整个2D数据集可能是不明智的。您可能只需要足够的数据来处理每个4x4线程阵列将要访问的内容。

在使用cuda错误检查正确检测代码并检测并纠正所有错误后，请使用cuda-memcheck运行代码。这将进行额外级别的错误检查，以指出任何内核访问错误。如果您收到未指定的启动失败，也可以使用cuda-memcheck，这可能有助于查明问题。

完成这些基本的故障排除步骤后，向其他人寻求帮助可能是有意义的。但要先使用你最先给出的工具。

我还想在你回来之前指出另一个错误并再次发布此代码，寻求帮助。

这没用：

std::cout << "The sum is:" << *h_o << std::endl;

cudaMemcpy( h_a, d_a, num_bytes, cudaMemcpyDeviceToHost );
cudaMemcpy( h_o, d_o, sizeof(int), cudaMemcpyDeviceToHost );

在将总和从设备复制到主机之前，您正在打印总和。颠倒这些步骤的顺序：

cudaMemcpy( h_a, d_a, num_bytes, cudaMemcpyDeviceToHost );
cudaMemcpy( h_o, d_o, sizeof(int), cudaMemcpyDeviceToHost );

std::cout << "The sum is:" << *h_o << std::endl;

二维阵列的Cuda减少

1 个答案: