使用Wordnet数据库提取Word计数/频率计数

时间:2015-06-04 17:25:46

标签: java stanford-nlp wordnet

我正在寻找字数/频率提取,根据一般英语中的单词用法,如http://www.wordcount.org/main.php。我使用JWNL api访问Wordnet词典,我无法找到任何方法。

1 个答案:

答案 0 :(得分:1)

您可能需要查看Google N-Grams语料库。 unigram计数将为您提供每个单词的相对频率。有一次,我确实经历过这个并将WordNet中的所有单词链接到相应的n-gram计数;你可以在这里找到我的清单:

https://raw.githubusercontent.com/gangeli/sim/master/etc/weighted_wordnet_vocabulary.tab

请注意,这绝不是规范"以任何方式正式支持的列表,它只是我放在一起的东西。