更新

Question

我试图实现两个版本的函数，它会在浮点数组中找到max元素。但是，我的并行函数似乎比串行代码运行得慢得多。

使用4194304（2048 * 2048）浮点数组，我得到以下数字（以微秒为单位）：

序列号：9433
PPL代码：24184（慢两倍以上）
OpenMP代码：862093（几乎 100 慢一点）

以下是代码：

PPL：

float find_largest_element_in_matrix_PPL(float* m, size_t dims)
{
    float max_element;
    int row, col;
    concurrency::combinable<float> locals([] { return (float)INT_MIN; });
    concurrency::parallel_for(size_t(0), dims * dims, [&locals](int curr)
    {
        float &localMax = locals.local();
        localMax = max<float>(localMax, curr);
    });

    max_element = locals.combine([](float left, float right) { return max<float>(left, right); });
    return max_element;
}

的OpenMP：

float find_largest_element_in_matrix_OMP(float* m, unsigned const int dims)
{
    float max_value = 0.0;
    int i, row, col, index;

    #pragma omp parallel for private(i) shared(max_value, index)
    for (i = 0; i < dims * dims; ++i)
    {
#pragma omp critical
        if (m[i] > max_value)
        {
            max_value = m[i];
            index = i;
        }
    }

    //row = index / dims;
    //col = index % dims;
    return max_value;
}

什么使代码运行得如此之慢？我错过了什么吗？
你能帮我找出我做错的事吗？

Answer 1

因此，正如Baum mit Augen注意到的那样，OpenMP的问题在于我有一个关键部分，而且代码并没有实际并行运行，而是同步运行。删除关键部分就可以了。

对于PPL，我发现它比OpenMP做了更多的准备工作（创建线程和东西），因此减速。

更新

所以，这是使用OpenMP查找max元素的正确变体（仍然需要临界区但在if块内）：

float find_largest_element_in_matrix_OMP(float* m, unsigned const int dims)
{
    float max_value = 0.0;
    int i, row, col, index;

    #pragma omp parallel for
    for (i = 0; i < dims * dims; ++i)
    {
        if (m[i] > max_value)
        {
            #pragma omp critical
            max_value = m[i];
        }
    }
    return max_value;
}

PS：未经测试。

在数组中查找max元素OpenMP和PPL版本的运行速度比串行代码慢得多

1 个答案:

更新