存储在相似之处中的内容.SparseMatrixSimilarity()。index

时间:2019-01-17 03:37:38

标签: gensim cosine-similarity

我正在gensim模块中使用余弦相似度函数,这是相似度.SparseMatrixSimilarity()。我想获得所有索引文档之间的相似性。该方法具有attribute:index,但我不知道其中存储了什么。

    sim = similarities.SparseMatrixSimilarity(
        self.tfidf_vectors, num_features=self.featurenum)
    sim.save(path + '/model/train_index.index')
    print(sim.index.shape)
    print(sim.index.toarray().shape)
len(self.tfidf.vectors)为9117,但是sim.index.shape为(9117,143807)和sim.index.toarray()。shape也为(9117,143807)。我猜应该是(9117,9117)。 sim.index中有什么?

1 个答案:

答案 0 :(得分:0)

9117是文档计数,143897是所有文档中单词的计数。因此,索引是一个矩阵,每一行代表一个文档,每一列代表一个单词。