将Wordnet的输出减少到一个意味着

时间:2017-08-19 18:28:47

标签: python python-3.x wordnet text-classification

首先,让我向您介绍我的问题:对于一个项目,我必须对8000个问题进行分类,并将它们分为7类(宪法,体育,地理,历史,科学,教育和科技)。因为问题很短,所以SVM没有多大意义,所以我只为每个类别创建了一个单词列表。为了提高准确性,我必须扩展这些列表,因此可以将未标记的字符串放入类别中。在互联网上我听说过WordNet来获取单词的同义词(这对我来说很有意义,因为我需要尽可能多的同义词)。 但问题出现了:WordNet显示在

from nltk.corpus import wordnet as wn
for synset in wn.synsets(word):
    for lemma in synset.lemmas():
        print(lemma.name())

所有相关词汇。一个例子是资本这个词:我只是指一个国家的首都城市意义上的资本,但WordNet返回的词语资本,工作,大写字母,大写,大写,majuscule和首都华盛顿。 显然,我不需要在一袋字的地理上用大写这个词。 所以我问你是否有可能将WordNet减少到只有一个含义,或者是否有任何替代方案我可以使用。

真诚的,詹姆斯

1 个答案:

答案 0 :(得分:1)

您需要找到特定引理的同义词(规范字典条目;具有单一定义的单词)。我只需要在评论中添加link,祝你好运。