使用Movie Review数据集的IOB标记方案自定义Spacy NER

时间:2018-05-27 08:04:37

标签: machine-learning nlp spacy

我之前使用过CRF ++模型来识别电影评论数据集中的NER。但是,我发现spacy在使用和可视化方面非常有效。但是,这里的问题是我如何在spacy中加入CRF ++模型?如果不可能,我如何使用IOB标记训练Spacy NER模型以满足我的需求?

1 个答案:

答案 0 :(得分:0)

spaCy模型基于自定义设计的CNN模型,最佳谴责here。因此,它没有内部CRF模型,但使用自定义管道您可以使用spaCy自定义CRF模型,请查看this了解详细信息。

要使用spaCy训练NER模型,您的数据必须位于BILUO format,因此您应先转换数据,然后按the excellent doc about it。 还有一个转换器:

python -m spacy convert [input_file] [output_dir] [--converter] [--n-sents]
[--morphology]

可用于将conllion的数据转换为spaCy格式。