NLTK(或其他)语音标记器,返回n个最佳标记序列

时间:2017-08-28 10:00:24

标签: nltk pos-tagger

我需要一个词性标注器,它不仅返回给定句子的最佳标签序列,而且返回n个最佳标签序列。因此,对于像箭头一样的“时间飞逝”,它可以返回例如NN VBZ IN DT NN和NN NNS VBP DT NN,按其概率排序。我需要使用我自己的标签集和句子示例来训练标记器,我想要一个允许设计句子的不同特征的标记器。如果其中一个nltk标记器具有此功能,那就太棒了,但是我可以与我的Python代码接口的任何标记器都可以。提前感谢任何建议。

1 个答案:

答案 0 :(得分:1)

我建议您查看spaCy。从我所看到的情况来看,它默认情况下不允许您返回top-n标记,但它支持creating custom pipeline components

在Github上还有一个issue,其中讨论了这一点,并且有一些关于如何相对快速地实现它的建议。

相关问题