Latent Dirichlet Allocation(LDA)的文件数量

时间:2013-10-28 13:50:54

标签: text-mining lda tm

感谢您抽出宝贵时间来研究这个问题。我最近从网上抓取了一些文本并将输出保存为大约约300页的.txt文件。我正在尝试实施LDA来构建主题,并且熟悉这样做的技术方面。

然而,我的问题是LDA使用一个文件还是多个文件是否很重要(例如,如果我正在检查200封电子邮件,我是否需要标记化,删除停用词和惩罚,并阻止大文件然后保存每个文件在实施LDA之前将其作为单独的.txt文件发送,还是可以在一个文件中完成?

我现在面临的问题是,如果我要将所有内容分解为单独的.txt文件,那么文档的预处理将需要很长时间。有什么建议?非常感谢。

2 个答案:

答案 0 :(得分:2)

这是一个编码网站,由于您的问题中没有任何代码,因此您并未真正提出适合此网站的问题。这可能就是为什么你到目前为止还没有得到任何答案。

也就是说,您可以将单个文本文件输入R,然后预处理该文本文件中的每个文档并生成主题模型。我已经尝试过两种方式,一个包含许多文档的巨型文件和一个文档的许多小文件。我发现处理速度的差异非常小。

答案 1 :(得分:1)

嗯,这很重要,因为LDA的想法是确定文档主题和主题词分发。因此,它违背了寻找主题 - 词分布概率的整个概念,这实质上告诉我们主题t生成词w的概率。

如果我们只有一个文档,那么主题之间没有区别,因为每个单词都会出现在同一个文档中。