nlp - 训练NER分类器以识别作者姓名

这是一小部分训练数据，所以我对它做出错误的推论并不感到惊讶。因为它看到的“Atal”的唯一例子是Author，所以它标记为“Atal”。

但更重要的是，如果你想区分开头列为Author的人和文本中列为0的人，斯坦福NER不会这样做。斯坦福大学NER旨在制作long distance inferences about the named-entity tags of tokens in natural language text。换句话说，它与你想要做的事情正好相反。

你可以用一些简单的模式识别来做到这一点 - 如果你的文档以类似的方式格式化，与作者在一起，我会从利用它开始。您可以使用NER将作者标记为PERSON，然后将该标记用作您自己标记中的一项功能。