斯坦福NLP:如何禁用警告?

时间:2017-07-29 09:05:50

标签: warnings suppress-warnings

斯坦福NLP管道发布了许多警告,特别是生产设置令人不安:

WARN  Untokenizable: � (U+FFFD, decimal: 65533)

有没有办法禁用它们?

2 个答案:

答案 0 :(得分:1)

如果你直接使用Tokenizer,Denis Kulagin给出的答案是好的;如果您在StanfordCoreNLP管道的更高级别操作,您可以简单地给出属性(或等效的命令行选项):

tokenize.options = untokenizable=noneDelete

(以静默方式删除所有未知字符)或以静默方式保留它们:

tokenize.options = untokenizable=noneKeep

答案 1 :(得分:0)

可以这样做:

Reader reader = new StringReader(paragraphText);
DocumentPreprocessor documentPreprocessor = new DocumentPreprocessor(reader, DocumentPreprocessor.DocType.Plain);

TokenizerFactory<? extends HasWord> factory = PTBTokenizer.factory();
factory.setOptions("untokenizable=noneDelete");
documentPreprocessor.setTokenizerFactory(factory);

从这里开始:enter image description here

相关问题