计算GenSim上未见文档的主题分布

时间:2016-12-02 03:14:53

标签: python nlp gensim lda

我正在尝试使用GenSim的LDA模块执行以下任务

“使用一个大文档训练LDA模型并跟踪10个潜在主题。给定一个新的,看不见的文档,预测10个潜在主题的概率分布”。

根据这里的教程:http://radimrehurek.com/gensim/tut2.html,这似乎可以用于语料库中的文档,但我想知道它是否可能出现一个看不见的文档。

谢谢!

1 个答案:

答案 0 :(得分:1)

从您发布的文档看起来您可以像这样训练您的模型:

>>> model = models.LdaModel(corpus, id2word=dictionary, num_topics=100)

然后从this page看起来你可以将你的模型应用于"一个看不见的文件"像这样:

>>> doc_lda = model[doc_bow]

其中doc_bow是由doc2bow工具生成的词袋。

相关问题