Gensim:如何从已保存的LDA模型加载语料库?

时间:2020-03-24 23:18:27

标签: gensim lda corpus

当我保存我的LdaModel lda_model.save('model')时,它保存了4个文件:

  1. model
  2. model.expElogbeta.npy
  3. model.id2word
  4. model.state

我想使用pyLDAvis.gensim来可视化主题,这似乎需要模型,语料库和字典。我可以用以下方式加载模型和字典:

lda_model = LdaModel.load('model')
dict = corpora.Dictionary.load('model.id2word')

是否可以加载语料库?怎么样?

2 个答案:

答案 0 :(得分:0)

在gensim python代码中,他们说忽略expElogbeta和状态文件。可以加载语料库,语料库是一组包含2个数字的列表。加载起来会很复杂,我建议从原始文本数据中使用id2word加载语料库

答案 1 :(得分:0)

在这里分享这个是因为我也花了一段时间才找到答案。请注意,dict 不是字典的有效名称,我们使用 lda_dict 代替。

# text array is a list of lists containing text you are analysing
# eg. text_array = [['volume', 'eventually', 'metric', 'rally'], ...]
# lda_dict is a gensim.corpora.Dictionary object

bow_corpus = [lda_dict.doc2bow(doc) for doc in text_array]