中文NER不承认微博文本中包含的某些位置

时间:2015-09-14 22:33:03

标签: stanford-nlp

我目前正在做一些分类中文微博文本的工作,其中一个步骤是提取文本中包含的地理位置。我按照Stanford-NLP网站中描述的步骤进行操作,即首先使用中文分词器分割中文文本,然后将中文NER模型应用于分段文本。

但是,我看到很多漏报,其中文本确实包含地理位置,但NER软件无法识别它们。下面列出了一些示例(斜体字手动标记为地理位置)。

  

【开展防汛排查】6月29日,紫阳县红椿镇强降雨引发了山体滑坡和泥石流,为避免发生不安全事故,红椿派出所与交警中队民警冒雨开展重点路段巡查,疏导交通,排查险情。目前,共排查险情3处,救助因山体落石被砸的伤员1名。@安康警务

     

【开展/ O防汛/ O排查/ O】6月/ MISC 29日/ MISC,/ O紫阳/ O县/ O红椿镇/ O强/ O降雨/ O引发/ O   了/ O山体/ O滑坡/ O和/ O泥石流/ O,/ O为/ O避免/ O发生/ O不安全/ O事故/ O,/ O红椿/ O派出所/ O   与/ O交警/ O中队/ O民警/ O冒雨/ O开展/ O重点/ O路段/ O巡查/ O,/ O疏导/ O交通/ O,/ O排查/ O   险情/ O ./O目前/ O,/ O共/ O排查/ O险情/ O 3 / O处/ O,/ O救助/ O因/ O山体/ O落石/ O被/ O砸/ O   的/ O伤员/ O 1 / O名/ O ./O @ / O安康/ Oawknow / O

     

云南预警发布中心】沧源县气象台2015年7月16日14时00分发布暴雨蓝色预警信号:预计未来12小时,我县西部,南部的部分地区降雨量将达50毫米以上,请注意防范局地洪涝,滑坡和泥石流等灾害。

     

【云南/ ORG预警/ ORG发布/ ORG中心/ ORG】沧源/ ORG县/ ORG气象台/ ORG 2015年/ MISC   7月/ MISC 16日/ MISC 14时00 / MISC分/ MISC发布/ O暴雨/ O蓝色/ O预警/ O信号/ O:/ O预计/ O   未来/ O 12 / MISC小时/ MISC,/ O我/ O县/ O西部/ O,/ O南部/ O的/ O部分/ O地区/ O降雨量/ O将/ O   达/ O 50 / O毫米/ O以上/ O,/ O请/ O注意/ O防范/ O局地/ O洪涝/ O,/ O滑坡/ O和/ O泥石流/ O等/ O   灾害/ O ./O

     

张掖肃南县遭受山洪泥石流灾害暂无人员伤亡报告】

     

【张拉肃/ PERSON南县/ O遭受/ O山洪/ O泥石流/ O灾害/ O暂/ O无/ O人员/ O伤亡/ O报告/ O】

     

马尔康县马江街红苕沟泥石流!

     

马尔康县/ O马江/ O街/ O红苕/ O沟/ O泥石流/ O!/ O

     

走G214时候已经见过了陡坡,急弯,泥石流,滑坡,临水临崖,积雪泥泞等各种路况,今天出的左贡县这段几十公里简直想骂娘,这种烂泥搓板路简直专治肾结石,哪儿结石都给你颠出来......

     

走/ O G214 / O时候/ O已经/ O见/ O过/ O了/ O陡坡/ O,/ O急弯/ O,/ O泥石流/ O,/ O滑坡/ O,/ O临/ O水/ O临崖/ O,/ O积雪/ O泥泞/ O等/ O各/ O种/ O路况/ O,/ O今天/ MISC出/ O左贡县/ O这/ O段/ O几十/ MISC公里/ MISC简直/ O想/ O骂娘/ O,/ O这/ O种/ O烂泥/ O搓板/ O路/ O简直/ O专治/ O肾/ O结石/ O,/ O哪儿/ O结石/ O都/ O给/ O你颠/ O出来/ O ... / O ... / O

最后一个例子的一个奇怪的事情是,在线演示可以正确地将单词“左贡县”单独归类为GPE,而当我在我的计算机上运行时,它将打印“左贡县/ O”。

我不知道我是否正确使用该软件,如果我正确使用该软件,我不知道如何处理这些问题。我可以做些什么来纠正这些?喜欢训练我自己的模特吗?

我真的很感激任何帮助。

1 个答案:

答案 0 :(得分:0)

您的软件中是否嵌入了中文字符?缺少嵌入字体可能是问题所在。