用于自动主题标记的MALLET - 带有训练数据

时间:2012-10-04 11:55:54

标签: tagging mallet training-data topic-modeling

我有一份文件,我已经标记过了。我有大约400个标签的固定列表 - 与不同的主题有关。每个文档都标有一个或多个标签和一个简短的标题。 (我还有一个更大的标题列表 - 如果文档包含非常相似的内容,我经常重复使用)

我想基于我如何标记现有文档,为我添加到语料库的新文档建立一个建议标签/标题(来自我现有的列表)的界面。

我已经阅读了概率主题模型LDA类,当您没有任何现有的标记数据时,它非常适合分析文本。但是我没有看到任何可以融入现有工作的方法。

任何建议都将不胜感激。

亲切的问候

斯瓦米

1 个答案:

答案 0 :(得分:0)

对于标签建议,我们的经验只是使用搜索引擎,不需要主题建模。

尝试以下步骤:

  • 设置所有文件的标题和摘要的索引
  • 使用新文档的标题或摘要作为查询来搜索索引,并且可以实现类似文档的列表。
  • 使用列表中的前几个最相似的文档,我们将它们上的所有标记聚合为标记包
  • 按照每个标记的频率对标记包进行排序,第一个最常用的标记是最终结果

此解决方案可行。

相关问题