CoreNLP - NER和SUTime仅识别绝对日期

时间:2018-03-06 08:56:05

标签: stanford-nlp named-entity-recognition sutime

我正在使用CoreNLP的命名实体识别注释器。

我的问题是我不想承认实体的相对日期。 我的目标是将日期与事件联系起来

  

一些有趣的日期是1997年2月18日,7月20日,1992年,今天4天和13日星期一。

在这个例子中,我想突出显示" 1997年2月18日"," 7月20日"和" 1992"。 即使其中某些日期尚未完成,它们仍可用于搜索事件。

另一方面"从今天开始的4天"和"星期一,13日"对我来说并不感兴趣:原因是第一个是相对于当前日期(或文本的编写日期),而第二个是太通用了。

有没有一种简单的方法可以告诉NER注释者丢弃相对日期?

谢谢

1 个答案:

答案 0 :(得分:1)

我找到了以下解决方案,在我的案例中效果非常好。

表示时间/日期命名实体的每个标记都有一个包含其标准化形式的注释字段。

我想识别的绝对日期将具有遵循以下模式的标准化形式:

  • 1997年2月18日 - > 1997年2月18日
  • 7月20日 - > XXXX / 7月20日
  • 1992 - > 1992年

使用REGEX可以丢弃没有像这样的规范化形式的注释。

(\d{4}|X{4})((\/\d{2}(\/\d{2})?)?)
相关问题