Gensim LDA主题分配

时间:2016-10-11 03:07:19

标签: python lda gensim

我希望使用LDA将每个文档分配给一个主题。现在我意识到你得到的是LDA主题的分布。但是,正如您从下面的最后一行所看到的那样,我将其分配给最可能的主题。

我的问题是这个。我必须第二次运行lda[corpus]才能获得这些主题。是否有一些其他内置gensim函数将直接给我这个主题赋值向量?特别是因为LDA算法已通过文档,它可能已经保存了这些主题分配?

# Get the Dictionary and BoW of the corpus after some stemming/ cleansing
texts = [[stem(word) for word in document.split() if word not in STOPWORDS] for document in cleanDF.text.values]
dictionary = corpora.Dictionary(texts)
dictionary.filter_extremes(no_below=5, no_above=0.9)
corpus = [dictionary.doc2bow(text) for text in texts]

# The actual LDA component
lda = models.LdaMulticore(corpus=corpus, id2word=dictionary, num_topics=30, chunksize=10000, passes=10,workers=4) 

# Assign each document to most prevalent topic
lda_topic_assignment = [max(p,key=lambda item: item[1]) for p in lda[corpus]]

2 个答案:

答案 0 :(得分:1)

没有其他内置的Gensim函数可以直接提供主题分配向量。

您的问题是LDA算法已通过文档,但LDA实现的实现是通过分块更新模型(基于chunksize参数的值)来进行的,因此它不会使整个语料库保持在-记忆。

因此,您必须使用lda[corpus]或使用方法lda.get_document_topics()

答案 1 :(得分:-1)

dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]


test =LDA[corpus[0]]
print(test)
sorted(test, reverse=True, key=lambda x: x[1])

Topics = ['Topic_'+str(sorted(LDA[i], reverse=True, key=lambda x: x[1])[0][0]).zfill(3) for i in corpus]
相关问题