Question

当我保存我的LdaModel lda_model.save('model')时，它保存了4个文件：

model
model.expElogbeta.npy
model.id2word
model.state

我想使用pyLDAvis.gensim来可视化主题，这似乎需要模型，语料库和字典。我可以用以下方式加载模型和字典：

lda_model = LdaModel.load('model')
dict = corpora.Dictionary.load('model.id2word')

是否可以加载语料库？怎么样？

Answer 1

在gensim python代码中，他们说忽略expElogbeta和状态文件。可以加载语料库，语料库是一组包含2个数字的列表。加载起来会很复杂，我建议从原始文本数据中使用id2word加载语料库

Answer 2

在这里分享这个是因为我也花了一段时间才找到答案。请注意，dict 不是字典的有效名称，我们使用 lda_dict 代替。

# text array is a list of lists containing text you are analysing
# eg. text_array = [['volume', 'eventually', 'metric', 'rally'], ...]
# lda_dict is a gensim.corpora.Dictionary object

bow_corpus = [lda_dict.doc2bow(doc) for doc in text_array]

Gensim：如何从已保存的LDA模型加载语料库？

2 个答案: