cublas_sgemm使用了多少个核心/线程?

时间:2015-05-14 05:28:23

标签: cuda gpgpu gpu-programming cublas

我是GPU和并行编程的新手。 我想在不同的数据上执行一个函数说'A'并行说x1,x2,x3 .... 'A'调用函数'cublas_sgemm'。

然后我是否需要关心cublas_sgemm的实现?

1 个答案:

答案 0 :(得分:1)

您不必担心cublasSgemm的实施。它将使用尽可能多的问题大小的设备。对于相当大的矩阵,它将使用整个设备。对于有效利用整个设备的任何功能,通过尝试添加额外的并行性(而不是仅按顺序发布gemm函数,适当使用复制和计算的重叠),您不太可能在性能方面有很大改进

对于小型矩阵,有一个batched gemm function应该比试图自己管理并行性更好。