Question

我需要在另一个数组中找到第一个小于或等于一个数组元素的索引。一种有效的方法是：

import numpy
a = numpy.array([10,7,2,0])
b = numpy.array([10,9,8,7,6,5,4,3,2,1])
indices = [numpy.where(a<=x)[0][0] for x in b]

indices 的值为[0,1,1,1,2,2,2,2,3,3]，这正是我所需要的。问题当然是python“for”循环很慢，我的数组可能有数百万个元素。这有什么不好的伎俩吗？这不起作用，因为它们的数组长度不同：

indices = numpy.where(a<=b) #XXX: raises an exception

谢谢！

Answer 1

这可能是一种特殊情况，但您应该能够使用numpy digitize。这里需要注意的是，垃圾箱必须单调减少或增加。

>>> import numpy
>>> a = numpy.array([10,7,2,0])
>>> b = numpy.array([10,9,8,7,6,5,4,3,2,1])

>>> indices = [numpy.where(a<=x)[0][0] for x in b]
[0, 1, 1, 1, 2, 2, 2, 2, 2, 3]

>>> numpy.digitize(b,a)
array([0, 1, 1, 1, 2, 2, 2, 2, 2, 3])

时间测试的设置：

a = np.arange(50)[::-1]

b = np.random.randint(0,50,1E3)

np.allclose([np.where(a<=x)[0][0] for x in b],np.digitize(b,a))
Out[55]: True

一些时间：

%timeit [np.where(a<=x)[0][0] for x in b]
100 loops, best of 3: 4.97 ms per loop

%timeit np.digitize(b,a)
10000 loops, best of 3: 48.1 µs per loop

看起来加速了两个数量级，但这在很大程度上取决于垃圾箱的数量。你的时间会有所不同。

为了与Jamie的答案进行比较，我已经计算了以下两段代码。由于我主要想关注searchsorted vs digitize的速度，我稍微减少了Jamie的代码。相关的块在这里：

a = np.arange(size_a)[::-1]
b = np.random.randint(0, size_a, size_b)

ja = np.take(a, np.searchsorted(a, b, side='right', sorter=a)-1)

#Compare to digitize
if ~np.allclose(ja,np.digitize(b,a)):
    print 'Comparison failed'

timing_digitize[num_a,num_b] = timeit.timeit('np.digitize(b,a)',
                      'import numpy as np; from __main__ import a, b',
                      number=3)
timing_searchsorted[num_a,num_b] = timeit.timeit('np.take(a, np.searchsorted(a, b, side="right", sorter=a)-1)',
                      'import numpy as np; from __main__ import a, b',
                      number=3)

这有点超出了我有限的matplotlib能力，所以这是在DataGraph中完成的。我绘制了timing_digitize/timing_searchsorted的对数比，因此大于零searchsorted的值更快，值小于零digitize更快。颜色也提供相对速度。例如，显示右上角（a = 1E6，b = 1E6）digitize比searchsorted慢约300倍，而较小尺寸digitize可以快10倍。黑线大致是收支平衡点：

enter image description here 看起来原始速度searchsorted对于大型案例几乎总是更快，但如果箱子的数量很小，digitize的简单语法几乎一样好。

Answer 2

这很麻烦，但确实有效：

>>> idx = np.argsort(a)
>>> np.take(idx, np.searchsorted(a, b, side='right', sorter=idx)-1)
array([0, 1, 1, 1, 2, 2, 2, 2, 2, 3], dtype=int64)

如果您的数组始终排序，您应该可以摆脱argsort调用。

比较两个不同长度的numpy数组

2 个答案: