标签: memory cuda
答案 0 :(得分:3)
根据内核代码中的访问模式,可以有。使用共享内存缓冲区来“分级”输出可以是确保写入被合并的有用方法,当天真写入不会被合并时。这对于前几代CUDA兼容硬件(G80 / G90)的性能非常重要。在较新的硬件中,这种情况的强度要小得多。费米卡有一个非常有效的L1和L2缓存方案,可以(在合理范围内)接近以前只能使用共享内存实现的,而无需任何额外的代码。
这个问题并没有真正的答案,因为它取决于任何给定代码所做的很多具体细节,以及预期运行良好的目标硬件。