Question

我遇到了一些性能问题，因此我希望加快那些运行缓慢的脚本。但我对如何加快它们没有更多的想法。因为我发现我经常被指数所阻挡。我发现抽象思维对我来说非常困难。

脚本是

    tic,
    n = 1000;
    d = 500;
    X = rand(n, d);
    R = rand(n, n);
    F = zeros(d, d);
    for i=1:n
        for j=1:n
           F = F + R(i,j)* ((X(i,:)-X(j,:))' * (X(i,:)-X(j,:)));
        end
    end
    toc

Answer 1

讨论＆amp;解决方案代码

这里可以建议使用bsxfun的几种方法。另外，请继续阅读以了解如何在这样的问题上获得 30x+ 加速！

方法＃1（天真的矢量化方法）

为了适应X行之间的两次减法操作，然后是它们之间的后续逐元素乘法，基于bsxfun的简单方法将导致一个4D中间数组，它对应于{ {1}}。之后，需要将((X(i,:)-X(j,:))' * (X(i,:)-X(j,:)))乘以得到最终输出R。这是如下所示实现的 -

方法＃2（不那么天真的矢量化方法）

前面提到的方法进入4D可能会减慢速度。因此，您可以通过重新整形将中间数据保留到3D。这是下一个列出的 -

v1 = bsxfun(@minus,X,permute(X,[3 2 1]));
v2 = bsxfun(@times,permute(v1,[1 3 2]),permute(v1,[1 3 4 2]));
F = reshape(R(:).'*reshape(v2,[],d^2),d,[]);

方法＃3（混合方法）

现在，您可以基于方法＃2 （sub1 = bsxfun(@minus,X,permute(X,[3 2 1])); sub1_2d = reshape(permute(sub1,[1 3 2]),n^2,[]) mult1 = bsxfun(@times,sub1_2d,permute(sub1_2d,[1 3 2])) F = reshape(R(:).'*reshape(mult1,[],d^2),d,[]) + vectorized subtractions）制作混合方法。这种方法的好处是它使用loopy multiplications来执行乘法并将复杂度从较早的O（n ^ 2）降低到O（n），这应该使它更有效。感谢@ Dev-iL，提出这个想法！这是代码 -

fast matrix multiplication

基准

基准代码比较原始方法与方法＃3

sub1 = bsxfun(@minus,X,permute(X,[3 2 1]));
sub1 = bsxfun(@times,sub1,permute(sqrt(R),[1 3 2]));

F = zeros(d);
for k = 1:size(sub1,3)
    blk = sub1(:,:,k);    
    F = F + blk.'*blk;
end

运行时结果

%// Parameters
n = 500;
d = 250;
X = rand(n, d);
R = rand(n, n);

%// Warm up tic/toc.
for k = 1:100000
    tic(); elapsed = toc();
end

disp('------------------------------ With Original Approach')
tic
F1 = zeros(d, d);
for i=1:n
    for j=1:n
        F1 = F1 + R(i,j)*((X(i,:)-X(j,:))' * (X(i,:)-X(j,:)));
    end
end
toc, clear F1 i j

disp('------------------------------ With Proposed Approach #3')
tic
sub1 = bsxfun(@minus,X,permute(X,[3 2 1]));
sub1 = bsxfun(@times,sub1,permute(sqrt(R),[1 3 2]));

F = zeros(d);
for k = 1:size(sub1,3)
    blk = sub1(:,:,k);    
    F = F + blk.'*blk;
end
toc

那么，谁准备好 30x + 加速！？

是否可以加速这个MATLAB脚本？

1 个答案:

讨论＆amp;解决方案代码

基准