未知和已知单词的词性

时间:2013-05-20 05:15:15

标签: nlp stanford-nlp oov

对于未知单词的词性标注和已知单词的词性标注之间有什么不同。是否有任何工具可以预测单词的词性标注..

2 个答案:

答案 0 :(得分:3)

处理词汇外单词的一种常用方法是用令牌* RARE *替换训练语料库中具有低发生率(例如,频率<3)的所有单词,因此tagger可以粗略地捕捉如何标记罕见的单词。然后在测试阶段,只需将不在标记器词汇表中的每个单词视为* RARE *。

更简单的方法是使用多数标签标记每个词典外单词。以下使用nltk工具包的代码将每个看不见的单词标记为“NN”。

tagger = nltk.UnigramTagger(trainingCorpus, backoff=nltk.DefaultTagger('NN'))

答案 1 :(得分:0)

TnT tagger's paper提供了一种标记未知单词的有效方法。

使用词典来处理未知单词的另一种方法可以在this article中找到。文章显示,基于词典的方法与13种语言的TnT相比,获得了未知单词的有希望的标记结果,包括保加利亚语,捷克语,荷兰语,英语,法语,德语,印地语,意大利语,葡萄牙语,西班牙语,瑞典语,泰国和越南。您还可以在文章中找到13种语言的TnT和其他两种POS和形态标记的准确性结果(对于已知单词和未知单词)。

相关问题