tagging - 用于自动主题标记的MALLET - 带有训练数据

我有一份文件，我已经标记过了。我有大约400个标签的固定列表 - 与不同的主题有关。每个文档都标有一个或多个标签和一个简短的标题。（我还有一个更大的标题列表 - 如果文档包含非常相似的内容，我经常重复使用）

我想基于我如何标记现有文档，为我添加到语料库的新文档建立一个建议标签/标题（来自我现有的列表）的界面。

我已经阅读了概率主题模型LDA类，当您没有任何现有的标记数据时，它非常适合分析文本。但是我没有看到任何可以融入现有工作的方法。

任何建议都将不胜感激。

亲切的问候

斯瓦米