袋字分类

时间:2010-05-18 04:18:58

标签: machine-learning classification

我需要找到单词训练单词及其分类。简单分类如。体育娱乐和政治这样的事情。

我在哪里可以找到这些单词及其分类。我知道很多大学都做了一些单词分类。是否有任何培训示例库?

3 个答案:

答案 0 :(得分:1)

这不是您正在寻找的,但您可能会发现http://labs.google.com/sets有趣 你可以输入一堆单词,然后它会吐出一个相关单词列表,你可以递归地回到第一页来获得更多相关单词。

或者,下载大量维基百科文章(您已经知道每个页面的类别[http://en.wikipedia.org/wiki/Special:Categories])并编写一个简单的脚本来选择一个类别但非常低的文章中频率较高的单词来自其他类别的文​​章中的频率

答案 1 :(得分:1)

您可以使用20个新闻组数据http://people.csail.mit.edu/jrennie/20Newsgroups来查找每个主题的单词。对数据运行Support Vector Machine,它会为每个类提供单词的权重。您可以使用前20或50个单词。数据集有20个类别,如宗教,政治,体育等。希望它能帮到你。

答案 2 :(得分:0)

我不知道这样的单词列表,但可以建议使用维基百科和维基分类的副本。您可以解析维基百科的XML版本(我已经完成了)并收集来自不同主题的单词。