使用LDA模型在Python中获取样本外文档的主题权重

时间:2015-09-08 20:22:27

标签: python lda

我在Python中使用LDA(https://pypi.python.org/pypi/lda)来获取一组文档的主题。我能够获取用于训练模型的文档的主题及其权重。有没有办法将模型应用于估算LDA时未包含的文档?例如,如果我使用文档1-100来估计主题,我可以将模型应用于文档101-200以获取这些样本外文档的主题权重吗?这可能与我使用的LDA python包有关吗?

如果您点击我上面提供的链接,它会举例说明如何获取示例内文档的主题权重:

doc_topic = model.doc_topic_
for i in range(10):
    print doc_topic[i]

是否有适用于样本外文档的类似功能?

1 个答案:

答案 0 :(得分:3)

是的,在您适合模型后,您需要transform。见http://pythonhosted.org/lda/api.html#lda.lda.LDA.transform

类似

topics = model.transform(out_of_sample_docs)

相关问题