Question

在阅读this类似问题之后，我仍然无法完全理解如何实施我正在寻找的解决方案。我有一个稀疏矩阵，即：

 import numpy as np
 from scipy import sparse
 arr = np.array([[0,5,3,0,2],[6,0,4,9,0],[0,0,0,6,8]])
 arr_csc = sparse.csc_matrix(arr)

我想有效获取每行的前n项，而不会将稀疏矩阵转换为密集。最终结果应如下所示（假设n = 2）：

 top_n_arr = np.array([[0,5,3,0,0],[6,0,0,9,0],[0,0,0,6,8]])
 top_n_arr_csc = sparse.csc_matrix(top_n_arr)

Answer 1

链接答案有什么问题？它对你的情况不起作用吗？或者你只是不明白？或者它效率不够？

我打算建议找出lil格式矩阵的行的最高值，然后逐行应用。但我只想重复我之前的回答。

好的，我之前的回答是一个开始，但缺少有关迭代lol格式的一些细节。这是一个开始;它可能会被清理干净。

制作数组和lil版本：

In [42]: arr = np.array([[0,5,3,0,2],[6,0,4,9,0],[0,0,0,6,8]])    
In [43]: arr_sp=sparse.csc_matrix(arr)
In [44]: arr_ll=arr_sp.tolil()

上一个答案中的行函数：

def max_n(row_data, row_indices, n):
        i = row_data.argsort()[-n:]
        # i = row_data.argpartition(-n)[-n:]
        top_values = row_data[i]
        top_indices = row_indices[i]  # do the sparse indices matter?
        return top_values, top_indices, i

迭代arr_ll行，应用此函数并替换元素：

In [46]: for i in range(arr_ll.shape[0]):
    d,r=max_n(np.array(arr_ll.data[i]),np.array(arr_ll.rows[i]),2)[:2]
    arr_ll.data[i]=d.tolist()
    arr_ll.rows[i]=r.tolist()
   ....:     

In [47]: arr_ll.data
Out[47]: array([[3, 5], [6, 9], [6, 8]], dtype=object)

In [48]: arr_ll.rows
Out[48]: array([[2, 1], [0, 3], [3, 4]], dtype=object)

In [49]: arr_ll.tocsc().A
Out[49]: 
array([[0, 5, 3, 0, 0],
       [6, 0, 0, 9, 0],
       [0, 0, 0, 6, 8]])

在lil格式中，数据存储在2个对象类型数组中，作为子列表，一个包含数据编号，另一个包含列索引。

查看稀疏矩阵的数据属性在做新事物时很方便。改变这些属性有一定的风险，因为它搞乱了整个阵列。但看起来lil格式可以安全地调整。

csr格式比csc更适合访问行。它的数据存储在3个数组data，indices和indptr中。 lil格式根据indptr中的信息有效地将其中2个数组拆分为子列表。 csr非常适合数学（乘法，加法等），但在更改稀疏性时（将非零值转换为零）则不太好。

获取scipy稀疏矩阵中每行的前n项

1 个答案: