当我保存我的LdaModel lda_model.save('model')
时,它保存了4个文件:
model
model.expElogbeta.npy
model.id2word
model.state
我想使用pyLDAvis.gensim
来可视化主题,这似乎需要模型,语料库和字典。我可以用以下方式加载模型和字典:
lda_model = LdaModel.load('model')
dict = corpora.Dictionary.load('model.id2word')
是否可以加载语料库?怎么样?
答案 0 :(得分:0)
在gensim python代码中,他们说忽略expElogbeta和状态文件。可以加载语料库,语料库是一组包含2个数字的列表。加载起来会很复杂,我建议从原始文本数据中使用id2word加载语料库
答案 1 :(得分:0)
在这里分享这个是因为我也花了一段时间才找到答案。请注意,dict
不是字典的有效名称,我们使用 lda_dict
代替。
# text array is a list of lists containing text you are analysing
# eg. text_array = [['volume', 'eventually', 'metric', 'rally'], ...]
# lda_dict is a gensim.corpora.Dictionary object
bow_corpus = [lda_dict.doc2bow(doc) for doc in text_array]