我正在尝试实现使用统一内存的CUDA程序。我有两个统一的数组,有时它们需要原子更新。
以下问题为单个GPU环境提供了答案,但我不确定如何扩展问题中给出的答案以适应多GPU平台。
问题:cuda atomicAdd example fails to yield correct output
如果您需要此信息,我有4辆Tesla K20,它们全部更新了必须原子完成的部分阵列。
我将不胜感激。
答案 0 :(得分:3)
将评论总结为答案:
atomicAdd_system
来执行这种在地址空间范围内的原子操作-arch=sm_60
或类似的与往常一样,该信息在《编程指南》的relevant section中进行了巧妙地总结。