Question

我正在使用PyOpenCL让我的GPU对大型数据集进行一些回归。现在GPU比CPU慢，可能是因为有一个循环需要在每次增量期间访问全局内存（我认为......）。数据集太大而无法存储到本地内存中，但每个循环不需要整个数据集，因此我想将此数组的一部分复制到本地内存中。我的问题是：我该怎么做？在Python中，可以轻松地切片，但我认为在OpenCL中不可能。

这是我正在使用的OpenCL代码，如果您发现任何更多潜在的优化，请大声说：

__kernel void gpu_slope(__global double * data, __global double * time, __global int * win_results, const unsigned int N, const unsigned int Nmax, const double e, __global double * result) {
    __local unsigned int n, length, leftlim, rightlim, i;
    __local double sumx, sumy, x, y, xx, xy, invlen, a, b;

    n = get_global_id(0);

    leftlim = win_results[n*2];
    rightlim = win_results[n*2+1];

    sumx = 0;
    sumy = 0;
    xy = 0;
    xx = 0;
    length = rightlim - leftlim;

    for(i = leftlim; i <= rightlim; i++) {
        x = time[i];   /* I think this is fetched from global memory */
        y = data[i];
        sumx += x;
        sumy += y;
        xy += x*y;
        xx += x*x;
    }

    invlen = 1.0/length;
    a = xy-(sumx*sumy)*invlen;
    b = xx-(sumx*sumx)*invlen;
    result[n] = a/b;
}

我是OpenCL的新手，所以请耐心等待。谢谢！

Answer 1

GPU计算中的主要（点）尝试尽可能地利用硬件并行性。不是使用循环，而是为每个坐标启动一个具有不同线程的内核。然后，使用atomic operations（快速编码，但性能较慢的选项）或并行缩减，用于各种总和。

AMD就此问题有A tutorial。（NVidia也是如此，但他们的基于CUDA ......）

Answer 2

您将在PyOpenCL的示例文件夹中找到复制到本地内存的示例：https://github.com/inducer/pyopencl/tree/master/examples 我建议您阅读，运行和自定义其中几个示例以供学习。

我还推荐Udacity并行编程课程：https://www.udacity.com/course/cs344本课程将帮助巩固您对基本OpenCL概念的掌握。

将全局数组的一部分复制到本地内存

2 个答案: