Question

我正在使用CUDA 5.5和NVDIA GeForce GTX 780进行动态并行编程，其计算能力为3.5。我在内核函数中调用了一个内核函数，但它给了我一个错误：

错误：从__global__函数（“kernel_5”）调用__global__函数（“kernel_6”）只允许在compute_35架构上或以上

我做错了什么？

Answer 1

你可以做这样的事情

nvcc -arch=sm_35 -rdc=true simple1.cu -o simple1 -lcudadevrt

或

如果您有2个文件simple1.cu和test.c，那么您可以执行以下操作。这称为单独编译。

nvcc -arch=sm_35 -dc simple1.cu 
nvcc -arch=sm_35 -dlink simple1.o -o link.o -lcudadevrt
g++ -c test.c 
g++ link.o simple1.o test.o -o simple -L/usr/local/cuda/lib64/ -lcudart

cuda programming guide

中解释了同样的问题

Answer 2

从Visual Studio 2010开始：

1) View -> Property Pages
2) Configuration Properties -> CUDA C/C++ -> Common -> Generate Relocatable Device Code -> Yes (-rdc=true)
3) Configuration Properties -> CUDA C/C++ -> Device -> Code Generation -> compute_35,sm_35
4) Configuration Properties -> Linker -> Input -> Additional Dependencies -> cudadevrt.lib

Answer 3

您需要让nvcc为您的设备生成CC 3.5代码。这可以通过将此选项添加到nvcc命令行来完成。

 -gencode arch=compute_35,code=sm_35

您可以在动态并行性上找到CUDA样本以获取更多详细信息。它们包含所有支持的操作系统的命令行选项和项目设置。

http://docs.nvidia.com/cuda/cuda-samples/index.html#simple-quicksort--cuda-dynamic-parallelism-

编译包含动态并行性的代码失败

3 个答案: