斯坦福CoreNLP - 破折号

时间:2015-07-21 16:10:40

标签: stanford-nlp

我遇到使用Stanford管道(CoreNLP的最新版本)来解析BNC的问题。

有问题的句子摘录如下,问题是破折号(如果我删除它们,它会通过)。

" ......他们一次又一次地做了 - 多年来一直打开和关闭。"

解析器只是卡在这句话中,它甚至不会抛出错误。句子在Web界面中被正确解析。

我尝试使用tokenizer的选项,没有结果。

我添加了我正在使用的命令行: java [...] edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,depparse -tokenize.whitespace false -ssplit.eolonly true -parse.model edu / stanford / nlp / models / parser / nndep / english_SD.gz -file $ inputfile

有人建议如何处理这个问题吗?

提前多多感谢!

加布里埃拉

1 个答案:

答案 0 :(得分:1)

在OS X 10.10.4上使用Stanford CoreNLP v.3.5.2运行,我无法重现此问题。给出的示例字符串解析得很好。

可能存在问题,但如果是这样,那么它很微妙,您希望同样提供有关Stanford NLP版本,操作系统和版本的更多信息,并且粘贴一个无法在某个地方下载的文本文件,确保问题不是在网页上粘贴文本时丢失的行结尾。