Question

我想从每个主题中获取前10个词频，然后使用TfidfTransformer，我得到：类型为scipy.sparse.csr.csr_matrix

但是我不知道如何从每个列表中获得最高的十个，在数据中，（0，****）表示0列表，直到（5170，*****）表示5170列表

我尝试将其转换为numpy，但失败。

  (0, 19016)    0.024214182003181053
  (0, 28002)    0.03661443306612277
  (0, 6710) 0.02292100371816788
  (0, 27683)    0.013973969726506812
  (0, 27104)    0.02236713272585597
  (0, 6889) 0.0403281034949193
.
.
.
 (5169, 3236)   0.014432449220428715
  (5169, 19134) 0.014346823328868169
  (5169, 32915) 0.002047199186262409
  (5170, 35899) 0.49931779368675605
  (5170, 36444) 0.3479717717856863
  (5170, 15014) 0.5608169649159123

Answer 1

您可以使用TfidfVectorizer来公开get_feature_names方法。转换器没有这种方法，但是文档明确指出Vectorizer等于CountVectorizer，后跟转换器。如果您不想使用此功能，那么我认为在矢量化之前您将无法进行查找。

文档中的TfidfVectorizer：https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html

编辑：对fit_transform正常稀疏矩阵操作中TfidfVectorizer的输出进行排序和切分。

Sklearn如何从每个主题中获取10个单词

1 个答案: