词性标注(POS标签)的使用/应用

时间:2014-06-02 07:19:36

标签: nlp part-of-speech

我理解词性标注的隐含价值,并且已经看到过它在解析,文本到语音转换等方面的用法。

你能告诉我PoS标签的输出是如何形成的吗? 另外,你能解释NLP系统的其他任务/部分如何使用这样的输出吗?

2 个答案:

答案 0 :(得分:11)

PoS标记的一个目的是消除同音异义词的歧义。 例如,请使用以下句子:

我钓鱼

法语中的同一句话是Jepêcheunpoisson 。 如果没有标记, fish 将在两种情况下以相同的方式进行翻译,这将导致  错误的诱惑。但是,在PoS标记之后,句子将是

I_PRON fish_VERB a_DET fish_NOUN

从计算机的角度来看,这两个词现在都是截然不同的。这个wat,它们可以更有效地处理(在我们的例子中,fish_VERB将被翻译为pêche和fish_NOUN到 poisson )。

答案 1 :(得分:2)

基本上,POS标记器的目标是将语言(主要是语法)信息分配给子句子单元。这些单位称为代币,大多数情况下,它们对应于单词和符号(例如标点符号)。

考虑到输出的格式,只要你得到一系列令牌/标签对就没关系。一些POS标记器允许您指定一些特定的输出格式,其他使用XML或CSV / TSV等。

相关问题