Question

我正在使用gensim从文档中提取特征向量。我从Google下载了名为GoogleNews-vectors-negative300.bin的预训练模型，并使用以下命令加载了该模型：

model = models.Doc2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)

我的目的是从文档中获取特征向量。总而言之，获取相应的矢量非常容易：

vector = model[word]

但是，我不知道如何为文档做这件事。你能帮忙吗？

Answer 1

一组单词向量（例如GoogleNews-vectors-negative300.bin）对于Doc2Vec类创建的文本向量（Le / Mikolov＆＃39; Paragraph Vectors＆＃39;）来说既不必要也不够。相反，它希望通过示例文本进行培训，以学习每个文档向量。然后，训练有素的模型也可以用于推断“模型”。其他新文件的载体。

（Doc2Vec类仅支持load_word2vec_format()方法，因为它继承自Word2Vec类 - 不是因为它需要该功能。）

还有另一种简单的文本向量，可以通过简单地平均文档中的所有单词来创建，也许也可以根据一些单词重要性加权来创建。但那不是Doc2Vec所提供的。

为doc2vec加载预先训练的word2vec模型

1 个答案: