标记和训练NER数据集

时间:2017-03-28 12:42:34

标签: tags nlp stanford-nlp named-entity-recognition named-entity-extraction

我有一个数据集,我想为命名实体识别标记它。我的数据集是波斯语。 我想知道如何标记表达式:

***آقایمهدیکاظمی= Mehdi Kazemi先生/史密斯先生。 >>> (标题名称)我应该将所有标记为一个人,还是只标记名字和姓氏? (我的意思是我也应该标记“先生”)

Mr>> b_per || Mr>> 0

Mehdi>> i_per || Mehdi>> b_per

Kazemi>> i_per || Kazemi>> i_per

***بیمارستاننور= Noor医院>>>我应该只标记名称,还是将名称和医院标记为命名实体?

***埃菲尔铁塔/国防部(我的意思是美国国防部)例如>>>在波斯语中它被称为: وزارتدفاع(vezarate defa) 我应该只标记防御?还是一起来?

学校,电影,城市,国家和......还有更多的例子,因为我们在命名实体之前使用实体类。

如果您能帮我标记此数据集,我将不胜感激。

3 个答案:

答案 0 :(得分:0)

我将从CoNLL 2003培训数据中给出一些例子:

"先生&#34。未被标记为此人的一部分,因此标题将被忽略。

"哥伦比亚长老会医院"被标记为(LOC,LOC,LOC)

"纽约一家医院" (O,LOC,LOC,O)

"商务部"是(ORG,ORG,ORG)

我认为"艾菲尔铁塔"应该是(LOC,LOC)

答案 1 :(得分:0)

通常,您可以标记输出的外观。例如,如果您想要包含标题,则取决于您。但是,Core NLP不会标记重叠的实体,因此您必须对以某人命名的医院等案件做出决定。

答案 2 :(得分:-1)

我相信你正在前往斯坦福NLP和BIO格式。但是如果您还考虑其他选项,您可以查看结构化实体,例如:http://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdf

允许将实体描述为树,为信息提取提供更精细的分析。如果您打算将注释用于语义目的,而不仅仅是索引,那么注释会更加繁琐但可能是相关的。