训练NER分类器以识别作者姓名

时间:2017-07-02 09:36:49

标签: nlp stanford-nlp named-entity-recognition

我想使用NER(CRF分类器)来识别查询中的作者姓名。我使用培训文件training-data.col按照 nlp.stanford.edu 网站中给出的方法训练了NER。并使用以下文件进行测试:testing-data.tsv

NER将每个输入标记为作者,甚至是在训练数据中标记为非作者的数据。任何人都可以告诉我为什么NER将训练数据中的非作者标记为作者以及如何训练NER来识别作者(我有作者姓名列表进行训练)。

对于 nlp.stanford.edu 网站以外的NER参考资料的任何建议都会有所帮助。

1 个答案:

答案 0 :(得分:1)

这是一小部分训练数据,所以我对它做出错误的推论并不感到惊讶。因为它看到的“Atal”的唯一例子是Author,所以它标记为“Atal”。

但更重要的是,如果你想区分开头列为Author的人和文本中列为0的人,斯坦福NER不会这样做。斯坦福大学NER旨在制作long distance inferences about the named-entity tags of tokens in natural language text。换句话说,它与你想要做的事情正好相反。

你可以用一些简单的模式识别来做到这一点 - 如果你的文档以类似的方式格式化,与作者在一起,我会从利用它开始。您可以使用NER将作者标记为PERSON,然后将该标记用作您自己标记中的一项功能。

相关问题