Question

看起来显式计算向量数组的叉积比使用np.cross快得多。我已经尝试过矢量优先和矢量最后，它似乎没有什么区别，尽管这是在对类似question的回答中提出的。我使用它错了，还是只是慢一点？

笔记本电脑上的每个交叉产品的显式计算似乎需要大约60ns。这是〜大致〜它会得到的速度快吗？在这种情况下，似乎没有任何理由去Cython或PyPy或写一个特殊的ufunc。

我也看到了使用einsum的参考资料，但我并不真正理解如何使用它，并怀疑它不会更快。

a = np.random.random(size=300000).reshape(100000,3) # vector last
b = np.random.random(size=300000).reshape(100000,3)
c, d = a.swapaxes(0, 1),  b.swapaxes(0, 1)          # vector first

def npcross_vlast():        return np.cross(a, b)
def npcross_vfirst():       return np.cross(c, d, axisa=0, axisb=0)
def npcross_vfirst_axisc(): return np.cross(c, d, axisa=0, axisb=0, axisc=0)
def explicitcross_vlast():
    e = np.zeros_like(a)
    e[:,0] = a[:,1]*b[:,2] - a[:,2]*b[:,1]
    e[:,1] = a[:,2]*b[:,0] - a[:,0]*b[:,2]
    e[:,2] = a[:,0]*b[:,1] - a[:,1]*b[:,0]
    return e
def explicitcross_vfirst():
    e = np.zeros_like(c)
    e[0,:] = c[1,:]*d[2,:] - c[2,:]*d[1,:]
    e[1,:] = c[2,:]*d[0,:] - c[0,:]*d[2,:]
    e[2,:] = c[0,:]*d[1,:] - c[1,:]*d[0,:]
    return e
print "explicit"
print timeit.timeit(explicitcross_vlast,  number=10)
print timeit.timeit(explicitcross_vfirst, number=10)
print "np.cross"
print timeit.timeit(npcross_vlast,        number=10)
print timeit.timeit(npcross_vfirst,       number=10)
print timeit.timeit(npcross_vfirst_axisc, number=10)
print all([npcross_vlast()[7,i] == npcross_vfirst()[7,i] ==
           npcross_vfirst_axisc()[i,7] == explicitcross_vlast()[7,i] ==
           explicitcross_vfirst()[i,7] for i in range(3)]) # check one

explicit
0.0582590103149
0.0560920238495
np.cross
0.399816989899
0.412983894348
0.411231040955
True

Answer 1

在np.cross numpy版本中1.9.x的效果显着提升。

%timeit explicitcross_vlast()
%timeit explicitcross_vfirst()
%timeit npcross_vlast()
%timeit npcross_vfirst()
%timeit npcross_vfirst_axisc()

以下是1.8.0

的时间安排

100 loops, best of 3: 4.47 ms per loop
100 loops, best of 3: 4.41 ms per loop
10 loops, best of 3: 29.1 ms per loop
10 loops, best of 3: 29.3 ms per loop
10 loops, best of 3: 30.6 ms per loop

这些1.9.0的时间安排：

100 loops, best of 3: 4.62 ms per loop
100 loops, best of 3: 4.19 ms per loop
100 loops, best of 3: 4.05 ms per loop
100 loops, best of 3: 4.09 ms per loop
100 loops, best of 3: 4.24 ms per loop

我怀疑加速是由合并请求#4338引入的。

Answer 2

只需将vlast更改为

即可

def stacked_vlast(a,b):
        x = a[:,1]*b[:,2] - a[:,2]*b[:,1]
        y = a[:,2]*b[:,0] - a[:,0]*b[:,2]
        z = a[:,0]*b[:,1] - a[:,1]*b[:,0]
        return np.array([x,y,z]).T

即。使用堆叠替换列分配，如（旧）cross所做的那样，将速度降低5倍。

当我使用开发cross功能的本地副本时，我的explicit_vlast速度会略有提升。 cross使用out参数试图减少临时数组，但我的粗略测试表明它在速度方面没有太大差异。

https://github.com/numpy/numpy/blob/master/numpy/core/numeric.py

如果明确的版本有效，我不会升级numpy只是为了获得这个新版本cross。

Answer 3

首先，如果您希望加快代码速度，您应该尝试完全摆脱交叉产品。在许多情况下，例如，当与点积<a x b, c x d> = <a, c><b, d> - <a, d><b, c>结合使用时，这是可能的。

无论如何，如果确实需要明确的交叉产品，请查看

eijk = np.zeros((3, 3, 3))
eijk[0, 1, 2] = eijk[1, 2, 0] = eijk[2, 0, 1] = 1
eijk[0, 2, 1] = eijk[2, 1, 0] = eijk[1, 0, 2] = -1

np.einsum('ijk,aj,ak->ai', eijk, a, b)
np.einsum('iak,ak->ai', np.einsum('ijk,aj->iak', eijk, a), b)

这两个相当于np.cross，其中第二个使用两个einsum，每个einsum有两个参数，a similar question中提出了一种技术。

结果令人失望：这两种变体都比np.cross慢（除了n之外）：

情节是用

创建的

import numpy as np
import perfplot

eijk = np.zeros((3, 3, 3))
eijk[0, 1, 2] = eijk[1, 2, 0] = eijk[2, 0, 1] = 1
eijk[0, 2, 1] = eijk[2, 1, 0] = eijk[1, 0, 2] = -1


perfplot.show(
    setup=lambda n: np.random.rand(2, n, 3),
    n_range=[2**k for k in range(14)],
    kernels=[
        lambda X: np.cross(X[0], X[1]),
        lambda X: np.einsum('ijk,aj,ak->ai', eijk, X[0], X[1]),
        lambda X: np.einsum('iak,ak->ai', np.einsum('ijk,aj->iak', eijk, X[0]), X[1]),
        ],
    labels=['np.cross', 'einsum', 'double einsum'],
    xlabel='len(a)',
    logx=True,
    logy=True,
    )

获得跨产品的最快方式

3 个答案: