tags - 标记和训练NER数据集

时间：2017-03-28 12:42:34

标签： tags nlp stanford-nlp named-entity-recognition named-entity-extraction

我有一个数据集，我想为命名实体识别标记它。我的数据集是波斯语。我想知道如何标记表达式：

***آقایمهدیکاظمی= Mehdi Kazemi先生/史密斯先生。＆GT;＆GT;＆GT; （标题名称）我应该将所有标记为一个人，还是只标记名字和姓氏？（我的意思是我也应该标记“先生”）

Mr＆gt;＆gt; b_per || Mr＆gt;＆gt; 0

Mehdi＆gt;＆gt; i_per || Mehdi＆gt;＆gt; b_per

Kazemi＆gt;＆gt; i_per || Kazemi＆gt;＆gt; i_per

***بیمارستاننور= Noor医院＆gt;＆gt;＆gt;我应该只标记名称，还是将名称和医院标记为命名实体？

***埃菲尔铁塔/国防部（我的意思是美国国防部）例如＆gt;＆gt;＆gt;在波斯语中它被称为： وزارتدفاع（vezarate defa）我应该只标记防御？还是一起来？

学校，电影，城市，国家和......还有更多的例子，因为我们在命名实体之前使用实体类。

如果您能帮我标记此数据集，我将不胜感激。

答案 0 :(得分：0)

我将从CoNLL 2003培训数据中给出一些例子：

＆＃34;先生＆＃34。未被标记为此人的一部分，因此标题将被忽略。

＆＃34;哥伦比亚长老会医院＆＃34;被标记为（LOC，LOC，LOC）

＆＃34;纽约一家医院＆＃34; （O，LOC，LOC，O）

＆＃34;商务部＆＃34;是（ORG，ORG，ORG）

我认为＆＃34;艾菲尔铁塔＆＃34;应该是（LOC，LOC）

答案 1 :(得分：0)

通常，您可以标记输出的外观。例如，如果您想要包含标题，则取决于您。但是，Core NLP不会标记重叠的实体，因此您必须对以某人命名的医院等案件做出决定。

答案 2 :(得分：-1)

我相信你正在前往斯坦福NLP和BIO格式。但是如果您还考虑其他选项，您可以查看结构化实体，例如：http://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdf。

允许将实体描述为树，为信息提取提供更精细的分析。如果您打算将注释用于语义目的，而不仅仅是索引，那么注释会更加繁琐但可能是相关的。