Question

我在多线程“主机”程序中实现我的内核，其中每个主机线程都在调用内核。我使用常量内存时遇到了问题。在常量内存中会放置一些参数，但对于每个线程它们都是不同的。我也会在问题发生的地方建立一个样本。

这是内核

__global__ void Kernel( int *aiOutput, int Length )
{
    int id = threadIdx.x + blockIdx.x * blockDim.x;

    int iValue = 0;

    // bound check
    if( id < Length )
    {
        if( id % 3 == 0 )
            iValue = c_iaCoeff[2];
        else if( id % 2 == 0 )
            iValue = c_iaCoeff[1];
        else
            iValue = c_iaCoeff[0];

        aiOutput[id] = iValue;
    }
    __syncthreads();
}

pthread正在调用此函数。

void* WrapperCopy( void* params )
{
    // choose cuda device to perform on
    CUDA_CHECK_RETURN( cudaSetDevice( 0 ) );

    // cast of params
    SParams *_params = (SParams*)params;

    // copy coefficients to constant memory
    CUDA_CHECK_RETURN( cudaMemcpyToSymbol( c_iaCoeff, _params->h_piCoeff, 3*sizeof(int) ) );

    // loop kernel
    for( int i=0; i<100; i++ )
    {
        // perfrom kernel
        Kernel<<< BLOCKCOUNT, BLOCKSIZE >>>( _params->d_piArray, _params->iLength );
    }

    // copy data back from gpu
    CUDA_CHECK_RETURN( cudaMemcpy(
            _params->h_piArray, _params->d_piArray, BLOCKSIZE*BLOCKCOUNT*sizeof(int), cudaMemcpyDeviceToHost ) );

    return NULL;
}

常量内存声明为此。

__constant__ int c_iaCoeff[ 3 ];

对于每个主机线程在h_piCoeff中都有不同的值，并将其复制到常量内存。

现在我得到每个pthread调用相同的结果，因为它们都在c_iaCoeff中得到了相同的值。我认为这是常量内存如何工作并且必须在上下文中声明的问题 - 在示例中，将为所有pthreads调用声明只有一个c_iaCoeff，并且pthreads调用的内核将获取最后cudaMemcpyToSymbol。是吗？

现在我试图在二维数组中改变我的常量内存。第二个维度将是之前的值，但第一个维度将是使用的pthread的索引。

__constant__ int c_iaCoeff2[ THREADS ][ 3 ];

在内核中，它的使用方式就是这样。

iValue = c_iaCoeff2[iTId][2];

但我不知道是否有可能以这种方式使用常量内存，是吗？当我尝试将数据复制到常量内存时，我也遇到了错误。

CUDA_CHECK_RETURN( cudaMemcpyToSymbol( c_iaCoeff[_params->iTId], _params->h_piCoeff, 3*sizeof(int) ) );

一般是可以将常量内存用作二维数组，如果可以，我的失败在哪里？

Answer 1

是的，您应该能够以您希望的方式使用常量内存，但您使用的cudaMemcpyToSymbol复制操作不正确。该调用的第一个参数是符号，并且API在运行时符号表中执行查找以获取您请求的常量内存符号的地址。因此，地址无法传递给调用（尽管您的代码实际上是将初始化的主机值传递给调用，为什么我会将此作为练习留给读者）。

您可能错过的是调用中的可选第四个参数，它是您请求的符号指向的内存中的偏移量。所以你应该能够做到这样的事情：

cudaMemcpyToSymbol( c_iaCoeff,                    // symbol to lookup
                    _params->h_piCoeff,           // source location
                    3*sizeof(int),                // number of bytes to copy
                    (3*_params->iTId)*sizeof(int) // Offset in bytes
                   );

[标准免责声明：用浏览器编写，未经测试。自担风险使用]

最后一个参数是从符号开头起的字节偏移量。您的2D数组将按行主顺序排列，因此您需要使用行间距乘以行索引作为每个复制操作的偏移量。

cuda使用常量内存作为二维数组

1 个答案: