LDA Gensim Word - >主题ID分布而不是主题 - >单词分发

时间:2015-04-20 14:55:22

标签: python lda topic-modeling gensim

我正在尝试在我训练过的lda模型上实现Topic Tiling算法。 对于算法,我需要在看不见的文档中分配给单个单词的所有ID。然后,我将计算给定单词的最常见主题ID,并将其指定为该单词的模式。

我正在使用gensim lib,因此很容易获得topic-> word dist,其中的单词以其概率给出。但是,我如何得到"将哪些主题分配给单个世界",意思是word->主题dists。

Example:
s = "Banks are closed on Sunday"

Topic -> Word Dist from Gensim:
TopicTag -> Prob*Word
Topic 0 -> 0,3*Bank, 0,2*are
Topic 1 -> 0,2*closed, 0,1*Sunday
Topic 2 -> 0,4*Sunday, 0,3*on

What I want:
word -> TopicTag(Frequency that given word was assigned with the specified topic tag)
Banks -> Topic1(2), Topic2(2)
Closed -> Topic0(1),Topic1 (4)

请注意我对解析主题不感兴趣 - >来自Gensim的Word Dist结果,我有兴趣找到一种准确的方式,即我的模型将(众多)主题分配给将出现在看不见的文档中的每个单词。

提前致谢。

2 个答案:

答案 0 :(得分:1)

我也有兴趣知道答案。虽然,你可以得到主题 - >没有解析的Word Dist:

<div my-controller="callMe"></div>

现在y的每一行都会为你提供主题的文字分发

答案 1 :(得分:1)

您可以从lda_model.get_lambda()获取字主题权重矩阵。 另请参阅此邮件列表主题:https://groups.google.com/d/msg/gensim/6N9-Y5KVQu0/soFqkEopMWgJ

相关问题