opencl - 在不同的机器上实现OpenCL的最佳性能

我的供应商无关的OpenCL优化建议，按顺序：

内存访问

虽然GPU中的内存带宽是惊人的，但它通常是许多内核中最大的瓶颈。因此，最小化内存读写。不要读取任何可以存储在变量中的内容。
与（1）相关，使相邻内核访问相邻的内存位置，以便GPU可以将访问合并为单个（通常是128位或更宽）的读取或写入。通常，更喜欢宽访问而不是窄访问（例如，如果您有一个包含四个单字节元素的数据结构，请将其作为单个uchar4读取，而不是执行四次uchar读取。）
如果您拥有在多个工作项中使用相同值的全局数据，请使用共享本地内存，这样您只能从全局内存中读取一次。共享本地内存的访问速度要快得多。
交换记忆并计算你是否可以，而不是做所有的一个，然后做所有其他的。 GPU与这些重叠，因此其中一个变得“自由”。

计算

主持人

您提到过程序，但另一个重要方面是将数据传入GPU或从GPU中获取数据。许多GPU可以在计算的同时执行此操作，但您需要使用单独的命令队列和事件来确保在需要时准备好所有内容。这很有挑战性，但可以将串行上传/计算/下载周期转换为并行周期（上传C，计算B，同时下载A全部发生）。
如果数据传输是您花费时间的一个重要部分，请调查固定内存，零拷贝传输以及特定于供应商的内存缓冲区创建标记，这些都可以提供帮助。
尽可能避免clFinish并阻止读/写，以防止命令队列为空，然后GPU空闲。

祝你好运，玩得开心，并对你的目标硬件进行基准测试，以确保你的优化在所有硬件上都是积极的，而不是在某些硬件上回归。