Question

考虑arrayfun的以下简单速度测试：

T = 4000;
N = 500;
x = randn(T, N);
Func1 = @(a) (3*a^2 + 2*a - 1);

tic
Soln1 = ones(T, N);
for t = 1:T
    for n = 1:N
        Soln1(t, n) = Func1(x(t, n));
    end
end
toc

tic
Soln2 = arrayfun(Func1, x);
toc

在我的机器上（Linux Mint 12上的Matlab 2011b），此测试的输出是：

Elapsed time is 1.020689 seconds.
Elapsed time is 9.248388 seconds.

什么？！？ arrayfun虽然看起来更清洁，但却慢了一个数量级。这是怎么回事？

此外，我对cellfun进行了类似的测试，发现它比显式循环慢约3倍。同样，这个结果与我的预期相反。

我的问题是：为什么arrayfun和cellfun这么慢？考虑到这一点，有没有充分的理由使用它们（除了使代码看起来很好）？

注意：我在这里谈的是arrayfun的标准版本，而不是并行处理工具箱中的GPU版本。

编辑：为了清楚起见，我知道上面的Func1可以按照Oli的指示进行矢量化。我只选择了它，因为它为实际问题提供了简单的速度测试。

编辑：根据grungetta的建议，我用feature accel off重新进行了测试。结果是：

Elapsed time is 28.183422 seconds.
Elapsed time is 23.525251 seconds.

换句话说，差异的一大部分似乎是JIT加速器在加速显式for循环方面比arrayfun更好。这对我来说似乎很奇怪，因为arrayfun实际上提供了更多信息，即它的使用表明调用Func1的顺序无关紧要。另外，我注意到JIT加速器是打开还是关闭，我的系统只使用一个CPU ......

Answer 1

您可以通过运行其他版本的代码来实现这个想法。考虑明确写出计算，而不是在循环中使用函数

tic
Soln3 = ones(T, N);
for t = 1:T
    for n = 1:N
        Soln3(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
    end
end
toc

在我的电脑上计算的时间：

Soln1  1.158446 seconds.
Soln2  10.392475 seconds.
Soln3  0.239023 seconds.
Oli    0.010672 seconds.

现在，虽然完全'矢量化'解决方案显然是最快的，但您可以看到为每个x条目定义要调用的函数是巨大开销。只是明确地写出计算得到了因子5加速。我想这表明MATLABs JIT编译器does not support inline functions。根据gnovice的回答，实际上写一个普通函数而不是一个匿名函数更好。试试吧。

下一步 - 删除（向量化）内循环：

tic
Soln4 = ones(T, N);
for t = 1:T
    Soln4(t, :) = 3*x(t, :).^2 + 2*x(t, :) - 1;
end
toc

Soln4  0.053926 seconds.

另一个因素5加速：这些陈述中有些东西说你应该在MATLAB中避免循环...或者真的存在吗？看看这个

tic
Soln5 = ones(T, N);
for n = 1:N
    Soln5(:, n) = 3*x(:, n).^2 + 2*x(:, n) - 1;
end
toc

Soln5   0.013875 seconds.

更接近'完全'矢量化版本。 Matlab按列存储矩阵。您应该始终（在可能的情况下）将计算结构化为“逐列”矢量化。

我们现在可以回到Soln3了。循环顺序有“行方式”。让我们改变它

tic
Soln6 = ones(T, N);
for n = 1:N
    for t = 1:T
        Soln6(t, n) = 3*x(t, n)^2 + 2*x(t, n) - 1;
    end
end
toc

Soln6  0.201661 seconds.

更好，但仍然非常糟糕。单循环 - 很好。双循环 - 糟糕。我猜MATLAB在改进循环性能方面做了一些不错的工作，但仍然存在循环开销。如果你内心有一些较重的工作，你就不会注意到。但是由于这个计算是有限的内存带宽，你确实看到了循环开销。并且将更清楚地看到在那里调用Func1的开销。

那么arrayfun是怎么回事？在那里也没有任何功能，所以很多开销。但为什么比双嵌套循环更糟糕呢？实际上，已经多次广泛讨论了使用cellfun / arrayfun的主题（例如here，here，here和here）。这些函数速度很慢，你不能将它们用于这种细粒度的计算。您可以使用它们来实现代码简洁以及单元格和数组之间的精细转换。但是这个功能需要比你写的更重：

tic
Soln7 = arrayfun(@(a)(3*x(:,a).^2 + 2*x(:,a) - 1), 1:N, 'UniformOutput', false);
toc

Soln7  0.016786 seconds.

请注意，Soln7现在是一个单元格..有时这很有用。代码性能现在非常好，如果您需要单元格作为输出，则在使用完全矢量化解决方案后无需转换矩阵。

那么为什么arrayfun比简单的循环结构慢？不幸的是，我们不可能肯定地说，因为没有可用的源代码。你只能猜测，因为arrayfun是一个通用函数，它处理各种不同的数据结构和参数，在简单的情况下它不一定非常快，你可以直接表示为循环嵌套。我们无法知道的开销来自哪里。更好的实施可以避免开销吗？也许不吧。但不幸的是，我们唯一能做的就是研究表现以确定适用的案例，以及不适用的案例。

更新由于此测试的执行时间很短，为了获得可靠的结果，我现在添加了一个围绕测试的循环：

for i=1:1000
   % compute
end

以下有几次：

Soln5   8.192912 seconds.
Soln7  13.419675 seconds.
Oli     8.089113 seconds.

你看到arrayfun仍然不好，但至少比矢量化解决方案差三个数量级。另一方面，具有逐列计算的单个循环与完全矢量化版本一样快......这都是在单个CPU上完成的。如果切换到2个核心，Soln5和Soln7的结果不会改变 - 在Soln5中，我必须使用parfor来使其并行化。忘掉加速... Soln7并不是并行运行的，因为arrayfun并不是并行运行的。另一方面，Olis矢量化版本：

Oli  5.508085 seconds.

Answer 2

那是因为!!!!

x = randn(T, N);

不是gpuarray类型;

您需要做的就是

x = randn(T, N,'gpuArray');

arrayfun可能比matlab中的显式循环慢得多。为什么？

2 个答案: