自动文档标记相关

时间:2009-08-09 19:51:02

标签: tagging text-mining

我开始研究一个项目,我必须在其中使用关键字标记文档,如果您手动执行此操作(特别是如果您有数千个文档),那将非常困难和耗时。所以我打算自动化这个过程(知道结果不完美,但至少它会给你一些建议的标签)。 在最新的firefox版本中,他们实现了这样的系统(当你为页面添加书签时,它会建议你使用一些标签)。

yahoo term extraction服务也是一个很好的例子

因此,如果任何身体可以帮助我解决这个问题,我真的很感激帮助。或者,如果有人知道firefox标记系统,那么一点帮助就会很棒。

1 个答案:

答案 0 :(得分:1)

统计算法会起作用吗?也许是贝叶斯的东西?我知道它们用于垃圾邮件过滤,也许您可​​以调整贝叶斯过滤器以满足您的需求。

至少,你可以建议经常使用但不是英语常用词的词(他,她,我,然后,或者,等等......)