我正在做主题建模事情(初学者) 我正在考虑使用mallet来获取一些工具来让我理解这个区域,但是,我的问题是,我想基于1000个文档来训练模型,构建模型并在新单上使用模型文件以产生其潜在的主题。
但是,就我读到的关于mallet教程而言,它总是说这个工具或API对于文本语料库很有用,这意味着,它用于在几个文档中查找主题。
有没有办法可以根据模型(或从1000个文档中学习/构建的推理参数)找到单个文档的主题?
还有其他工具可以做到吗?
非常感谢!
答案 0 :(得分:0)
您可以参考示例代码src / cc / mallet / examples / TopicModel.java,它描述了如何聚类和推断新实例。
答案 1 :(得分:0)
实际上,当您在目录上运行简单LDA时,模型会根据"已经"将该主题比例分配给该目录的每个文档。从您的语料库的一部分训练的模型。因此,主题比例以一定概率分配给每个文档(已经按该主题出现在该特定文档中的概率进行排名)。