在POS标记中对下列单词进行分类的最佳方法是什么?

时间:2012-10-14 15:34:54

标签: nlp

我在做POS标记。鉴于训练集中有以下令牌,最好将每个令牌视为Word1 / POStag和Word2 / POStag,还是将它们视为Word1 / Word2 / POStag中的一个词?

示例:(不需要包含POSTag)

Bard/EMS
Interstate/Johnson
Polo/Ralph
IBC/Donoghue
ISC/Bunker
Bendix/King
mystery/comedy
Jeep/Eagle
B/T
Hawaiian/Japanese
IBM/PC
Princeton/Newport
editing/electronic
Heller/Breene
Davis/Zweig
Fleet/Norstar
a/k/a
1/2

任何建议都表示赞赏。

1 个答案:

答案 0 :(得分:0)

关于使用斜杠,这些示例似乎不属于同一类别 - a/k/a是一个短语首字母缩写,1/2是一个数字,mystery/comedy表示某事在两个词之间等 我觉得对于所有相关案例都没有对组成单词的处理,因此更好的选择是将它们作为独特的单词处理。在解码阶段,当标记器可能会出现更多以前未见过的这类单词的例子时,通常可以根据上下文而不是单词本身做出决定。