检索主题词阵列&来自lda gensim的document-topic数组

时间:2014-09-12 07:46:07

标签: lda gensim

情况:

我有一个numpy term-document矩阵 例如:[[0,1,0,0 ....],...... [...... 0,0,0,0]]。

我已将上述矩阵插入到gensim的ldamodel方法中。使用lad方法lda = LdaModel(corpus, num_topics=10)可以正常工作。 corpus是我上面提到的术语 - 文档矩阵。 我需要两个中间矩阵(主题 - 单词数组和文档 - 主题数组)用于研究目的。

  

1)每个文档主题概率矩阵(p_d_t)

     

2)每个主题 - 词概率矩阵(p_w_t)

问题:

如何从gensim LdaModel()函数中获取这些数组。请帮助我获取这些矩阵。

1 个答案:

答案 0 :(得分:10)

1.Per-document主题概率矩阵:

transformation应用于您的语料库。

docTopicProbMat = lda[corpus]
  1. 每个主题词概率矩阵:
  2. K = lda.num_topics topicWordProbMat = lda.print_topics(K)