Spacy 2.0 NER培训

时间:2017-11-10 09:35:51

标签: nlp training-data named-entity-recognition spacy

在SpacyV1中,可以通过提供BILOU格式的文档和实体注释列表来训练NER模型。

然而,似乎在V2训练中只能通过提供像这样的实体注释(7,13,'LOC'),所以使用enity偏移和实体标签。

以BILOU格式提供令牌列表和另一个实体标签列表的旧方法是否仍然有效?

从我从文档中收集的内容看起来nlp.update方法接受GoldParse对象列表,因此我可以为每个doc创建一个GoldParse对象,并将BILOU标记传递给它的entities属性。但是,如果忽略GoldParse类的其他属性(例如头部或标签https://spacy.io/api/goldparse)或者培训NER不需要的其他属性,我会丢失重要信息吗?

谢谢!

2 个答案:

答案 0 :(得分:3)

是的,您仍然可以使用BILUO标记创建GoldParse个对象。使用示例的主要原因显示"更简单"偏移格式使它们更容易阅读和理解。

如果您只想训练NER,现在还可以使用nlp.disable_pipes() context manager并在训练期间禁用所有其他管道组件(例如'tagger''parser')。在块之后,组件将被恢复,因此当您保存模型时,它将包括整个管道。您可以在NER training examples

中查看此操作

答案 1 :(得分:-1)

如何训练使用GoldParse对象?我已经尝试了一段时间,我无法理解。

相关问题