将一维数组转换为稀疏矩阵

时间:2019-06-28 18:29:58

标签: python arrays python-3.x multidimensional-array sparse-matrix

我正在做一个推荐项目,其中有这样的数据:

ID Movie
1   A
2   B
3   C
4   D
..
..

我想将此数据帧创建为如下所示的稀疏矩阵:

     1  2  3  4 ....n

1    1  0  0  0     0
2    0  1  0  0     0
3    0  0  1  0     0
4    0  0  0  1     0
.
.
n    0  0  0  0     1

基本上,行和列都包含移动的ID,并且当行和列元素具有相同的值时,该值为1。我想将其表示为

的稀疏格式
 <sparse matrix of type '<class 'numpy.int32'>'
    with 58770 stored elements in Compressed Sparse Row format>

我尝试执行以下操作:

 - np.diag(items)
 - csr_matrix(items.values)

但是我无法弄清楚。谁能帮我吗?

2 个答案:

答案 0 :(得分:1)

您可以使用scipy.sparse.spdiags

num_data=len(df)
sp=sparse.spdiags(np.ones(num_data), 0, num_data,num_data)

输出

  (0, 0)    1.0
  (1, 1)    1.0
  (2, 2)    1.0
  (3, 3)    1.0

如果电影的ID不一致:

sparse.coo_matrix((np.ones(num_data),(df['ID'],df['ID'])))

如果ID来自两个不同的数据帧:

match=list(set(df['ID']).intersection(set(df2['ID'])))
sparse.coo_matrix((np.ones(num_data),(match,match)))

答案 1 :(得分:1)

在对角线上有一个矩阵,在其他地方为零的矩阵称为“恒等矩阵”。您可以使用scipy.sparse.identity(n)在python中创建一个。该文档为here