Question

我有多个内核，它们以顺序方式启动，如下所示：

        clEnqueueNDRangeKernel(..., kernel1, ...);
        clEnqueueNDRangeKernel(..., kernel2, ...);
        clEnqueueNDRangeKernel(..., kernel3, ...);

并且，多个内核共享一个全局缓冲区。

现在，我通过在clEnqueueNDRangeKernel之后添加代码块来分析每个内核执行并总结它们以计算总执行时间：

        clFinish(cmdQueue);
        status = clGetEventProfilingInfo(...,&starttime,...);
        clGetEventProfilingInfo(...,&endtime,...);
        time_spent = endtime - starttime;

我的问题是如何通过一个clFinish一起分析三个内核？（比如在最后一次内核启动后添加一个clFinish（））。

是的，我给每个clEnqueueNDRangeKernel提供不同的时间事件，并得到大的负数。详细信息：

clEnqueueNDRangeKernel(cmdQueue,...,&timing_event1);
clFinish(cmdQueue);
clGetEventProfilingInfo(timing_event1,CL_PROFILING_COMMAND_START,sizeof(cl_ulong),&starttime1,NULL);
clGetEventProfilingInfo(timing_event1,CL_PROFILING_COMMAND_END,sizeof(cl_ulong),&endtime1,NULL);
time_spent1 = endtime1 - starttime1;

clEnqueueNDRangeKernel(cmdQueue,...,&timing_event2);
clFinish(cmdQueue);
clGetEventProfilingInfo(timing_event2,CL_PROFILING_COMMAND_START,sizeof(cl_ulong),&starttime2,NULL);
clGetEventProfilingInfo(timing_event2,CL_PROFILING_COMMAND_END,sizeof(cl_ulong),&endtime2,NULL);
time_spent2 = endtime2 - starttime2;

clEnqueueNDRangeKernel(cmdQueue,...,&timing_event3);
clFinish(cmdQueue);
clGetEventProfilingInfo(timing_event3,CL_PROFILING_COMMAND_START,sizeof(cl_ulong),&starttime3,NULL);
clGetEventProfilingInfo(timing_event3,CL_PROFILING_COMMAND_END,sizeof(cl_ulong),&endtime3,NULL);
time_spent3 = endtime3 - starttime3;

time_spent_all_0 = time_spent1 + time_spent2 + time_spent3;
time_spent_all_1 = endtime3 - starttime1;

如果我有每个clFinish，所有分析值都是合理的，但time_spent_all_1大约是time_spent_all_0的2倍。如果我删除除最后一个clFinish之外的所有clFinish，则所有分析值都是不合理的。

感谢Eric Bainville，我得到了我想要的结果：通过一个clFinish分析多个clEnqueueNDRangeKernel。以下是我使用的最终代码：

clEnqueueNDRangeKernel(cmdQueue,...,&timing_event1);
clEnqueueNDRangeKernel(cmdQueue,...,&timing_event2);
clEnqueueNDRangeKernel(cmdQueue,...,&timing_event3);
clFinish(cmdQueue);

clGetEventProfilingInfo(timing_event1,CL_PROFILING_COMMAND_START,sizeof(cl_ulong),&starttime,NULL);
clGetEventProfilingInfo(timing_event3,CL_PROFILING_COMMAND_END,sizeof(cl_ulong),&endtime,NULL);
time_spent = endtime - starttime;

Answer 1

每个clEnqueueNDRangeKernel都会创建自己的cl_event：调用的最后一个arg是指向cl_event的指针;如果最后一个arg不为0，则会创建一个新事件。

命令完成后，可以查询关联事件的开始/结束分析信息。此事件必须在使用后发布（致电clReleaseEvent）。

clFinish阻塞，直到所有排队的命令都完成。

您只需拨打clFinish一次，然后就可以查询所有活动的个人资料信息。

如何通过一个clFinish分析顺序启动的多个OpenCL内核？

1 个答案: