迭代英语词典所有单词的来源

时间:2012-01-13 19:06:10

标签: java dictionary

我需要遍历英语词典中的所有单词&根据它们是名词/动词还是其他任何内容来过滤某些内容。某些其他特征。有什么东西我可以用作这些词的来源吗?

2 个答案:

答案 0 :(得分:2)

只是想提一下,关于WordNet,有“停用词”,不包括在内。网上有些人制作了一些停用词,但我不确定它们是多么完整。 一些停止的词是:''','that','我','''来自''''。

更大的列表在这里: http://www.d.umn.edu/~tpederse/Group01/WordNet/wordnet-stoplist.html

有关单词列表,请参阅此sourceforge项目: http://wordlist.sourceforge.net/

您可能还想搜索此类列表的 usecases ,以便找到合适的数据源。

例如:

  • 拼写检查算法使用单词列表(独立的拼写检查程序,OpenOffice等文字处理应用程序)。

  • 文字游戏算法使用单词(拼字游戏,词汇教育游戏,填字游戏生成器)

  • 密码破解算法使用单词来帮助查找弱密码。 outpost9.com/files/WordLists.html

还有几个Java API可供选择,只有一些使用最新的字典(3.1)麻省理工学院的一个使用Java 5和WordNet 3.1的单词。

答案 1 :(得分:1)

我推荐来自princeton.edu的WordNet这是一个受欢迎的英文词汇数据库,其中包含以下字词属性:

  1. 简短定义
  2. 词性,例如名词,动词,形容词,& c。
  3. 同义词和分组
  4. smu.edu中有一个WordNet Java API,可以简化您在应用程序中使用WordNet的过程。您也可以下载数据库并自行解析,因为它只有12MB​​压缩。