opencl - 打开CL clEnqueueReadBuffer执行时间

打开CL clEnqueueReadBuffer执行时间

时间：2012-03-22 14:41:33

标签： opencl execution-time

我正在写开放式fl flocking，我有一个奇怪的问题。在Kernel Execute之前，clEnqueueReadBuffer从gpu mem读取到程序mem 20000数组float没有问题，非常快，但是在内核执行后对那个传递的数组做了一些操作，readbuffer持续时间太长（~150 ms）。为什么？在这两种情况下，数组都填充了数据。我的内核可能做错了什么？（传递数组是__global）。

1 个答案:

答案 0 :(得分：2)

clEnqueueNDRangeKernel实际上没有启动内核，它会“排列”它们。 OpenCL实现可以随时启动内核（在这种情况下，当您要求读取结果时，因为它需要运行内核来了解结果）。

但是，您可以强制实现通过clFinish启动内核。

在您的情况下，150ms延迟实际上是内核运行所需的时间。

如果在执行和第二次读取之间调用clFinish，它将起作用。

用AMD打开CL
打开CL clEnqueueReadBuffer执行时间
打开CL：一个本地组可以在多个计算单元中执行吗？
打开页面时执行JavaScript
内核执行期间OpenCL clEnqueueReadBuffer？
打开文件时未执行AppDelegate
尝试查找打开的CL代码的运行时出错
打开CL在数据并行内核
打开表树时增加执行时间
cl：编译时间与运行时间：inf与-nan（ind）

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？