Question

我正在尝试使用GenSim的LDA模块执行以下任务

“使用一个大文档训练LDA模型并跟踪10个潜在主题。给定一个新的，看不见的文档，预测10个潜在主题的概率分布”。

根据这里的教程：http://radimrehurek.com/gensim/tut2.html，这似乎可以用于语料库中的文档，但我想知道它是否可能出现一个看不见的文档。

谢谢！

Answer 1

从您发布的文档看起来您可以像这样训练您的模型：

>>> model = models.LdaModel(corpus, id2word=dictionary, num_topics=100)

然后从this page看起来你可以将你的模型应用于＆＃34;一个看不见的文件＆＃34;像这样：

>>> doc_lda = model[doc_bow]

其中doc_bow是由doc2bow工具生成的词袋。