将多个词典转换为稀疏矩阵

时间:2019-06-18 00:40:30

标签: python-3.x sparse-matrix

我有一个要构建到coo或csr_matrix中的数据框,因此我可以执行回归。诀窍是,我试图找到将稀疏的df内容存储到内存中可用的最佳方法。当前格式为:

颜色1:唯一ID
第2列:标签(浮标)
第3列:字典(矩阵特征是键,值是计数)

因此,两行可能看起来像这样:

id |标签|令牌
sw1t | 3.4211 | {'foo':1,'bar':3,'var':1}
4r3o | 2.9987 | {'foo':3,'rev':2,'hew':2}

以此类推...

是将其转换为稀疏矩阵(然后是基于列表的东西,如coo或csr)的最佳方法吗?看起来效率低下,但是scipy中可接受的输入是稀疏矩阵。我有50,000多条记录(并且正在迅速增长),因此内存将成为一个问题。

感谢任何建议。

0 个答案:

没有答案