Question

我正在写CUDA的第一个程序。它是素数发生器。它可以工作，但它比同等的单线程C ++代码快50％。 CPU版本使用100％的一个核心。 GPU版本仅使用20％的GPU。 CPU是i5（2310）。 GPU是GF104。

如何提高此算法的性能？

我的完整程序如下。

int* d_C;

using namespace std;

__global__ void primo(int* C, int N, int multi)
{
  int i = blockIdx.x*blockDim.x + threadIdx.x;
  if (i < N) 
  {
    if(i%2==0||i%3==0||i%5==0||i%7==0)
    {
      C[i]=0;           
    }
    else
    {
      C[i]=i+N*multi;
    }
  }
}

int main()
{
  cout<<"Prime numbers \n";
  int N=1000;
  int h_C[1000];
  size_t size=N* sizeof(int);
  cudaMalloc((void**)&d_C, size);

  int threadsPerBlock = 1024;
  int blocksPerGrid = (N + threadsPerBlock - 1) / threadsPerBlock;
  vector<int> lista(100000000);
  int c_z=0;

  for(int i=0;i<100000;i++)
  {
    primo<<<blocksPerGrid, threadsPerBlock>>>(d_C, N,i);    
    cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);         
    for(int c=0;c<N;c++)
    {   
      if(h_C[c]!=0)
      {
        lista[c+N*i-c_z]=h_C[c];
      }
      else
      {
        c_z++;
      }
    }   
  }
  lista.resize(lista.size()-c_z+1);
  return(0);
}

我尝试在内核中使用2D数组和for循环，但无法获得正确的结果。

Answer 1

欢迎使用Stack Overflow。

以下是一些潜在问题：

N = 1000太低。由于你有1024 threadsPerBlock，你的内核只会运行一个块，这不足以使用GPU。尝试N = 1000000，这样你的内核启动将近1000个。
您在GPU上做的工作很少（每个测试数量的4个模数运算）。因此，在CPU上执行这些操作的速度可能比从GPU（通过PCIe总线）复制它们更快。

为了让使用GPU查找素数值得值得，我认为你需要在GPU上实现整个算法，而不仅仅是模数运算。

CUDA素数发生器的低性能

1 个答案: