Question

在我的一个项目中，我在使用CUB时看到了一些不正确的结果 DeviceReduce :: ReduceByKey。但是，使用与thrust :: reduce_by_key相同的输入/输出会产生预期的结果。

#include "cub/cub.cuh"

#include <vector>
#include <iostream>

#include <cuda.h>

struct AddFunctor {
  __host__ __device__ __forceinline__
  float operator()(const float & a, const float & b) const {
    return a + b;
  }
} reduction_op;

int main() {

  int n = 7680;

  std::vector < uint64_t > keys_h(n);
  for (int i =    0; i < 4000; i++) keys_h[i] = 1;
  for (int i = 4000; i < 5000; i++) keys_h[i] = 2;
  for (int i = 5000; i < 7680; i++) keys_h[i] = 3;

  uint64_t * keys;
  cudaMalloc(&keys, sizeof(uint64_t) * n);
  cudaMemcpy(keys, &keys_h[0], sizeof(uint64_t) * n, cudaMemcpyDefault);

  uint64_t * unique_keys;
  cudaMalloc(&unique_keys, sizeof(uint64_t) * n);

  std::vector < float > values_h(n);
  for (int i = 0; i < n; i++) values_h[i] = 1.0;

  float * values;
  cudaMalloc(&values, sizeof(float) * n);
  cudaMemcpy(values, &values_h[0], sizeof(float) * n, cudaMemcpyDefault);

  float * aggregates;
  cudaMalloc(&aggregates, sizeof(float) * n);

  int * remaining;
  cudaMalloc(&remaining, sizeof(int));

  size_t size = 0;
  void * buffer = NULL; 

  cub::DeviceReduce::ReduceByKey(
    buffer,
    size,
    keys,
    unique_keys,
    values,
    aggregates,
    remaining,
    reduction_op,
    n);

  cudaMalloc(&buffer, sizeof(char) * size);

  cub::DeviceReduce::ReduceByKey(
    buffer,
    size,
    keys,
    unique_keys,
    values,
    aggregates,
    remaining,
    reduction_op,
    n);

  int remaining_h;
  cudaMemcpy(&remaining_h, remaining, sizeof(int), cudaMemcpyDefault);

  std::vector < float > aggregates_h(remaining_h);
  cudaMemcpy(&aggregates_h[0], aggregates, sizeof(float) * remaining_h, cudaMemcpyDefault);

  for (int i = 0; i < remaining_h; i++) {
    std::cout << i << ", " << aggregates_h[i] << std::endl;
  }

  cudaFree(buffer);
  cudaFree(keys);
  cudaFree(unique_keys);
  cudaFree(values);
  cudaFree(aggregates);
  cudaFree(remaining);

}

当我包含＆＃34; -gencode arch = compute_35时，代码= sm_35＆＃34; （对于Kepler GTX Titan），它会产生错误的结果，但是当我完全抛弃这些标志时，它就会起作用。

$ nvcc cub_test.cu
$ ./a.out
0, 4000
1, 1000
2, 2680
$ nvcc cub_test.cu -gencode arch=compute_35,code=sm_35
$ ./a.out
0, 4000
1, 1000
2, 768

我使用了一些其他CUB调用没有问题，只是这个是行为不端。我也尝试在GTX 1080 Ti上运行此代码 compute_61，sm_61）并看到相同的行为。

是否省略了这些编译器标志的正确解决方案？

试用一台机器：

cuda 8.0
ubuntu 16.04
gcc 5.4.0
cub 1.6.4
Kepler GTX Titan（计算能力3.5）

和另一个：

cuda 8.0
ubuntu 16.04
gcc 5.4.0
cub 1.6.4
Pascal GTX 1080 Ti（计算能力6.1）

Answer 1

听起来你应该在CUB repository issues page提交错误报告。

编辑：我可以重现此问题：

<style>
    .x-item-disabled, .x-item-disabled * {
    pointer-events:all;
}
</style>

指定gencode时，CUB ReduceByKey的结果不正确

1 个答案: