如何自定义stanfordNLP tokenizer来忽略星号字符?

时间:2015-09-15 14:14:49

标签: tokenize stanford-nlp

我使用stanfordCoreNLP库的标记生成器作为我项目的一部分。对于以下字符串  abc def *ghi 它提供以下令牌abc,def,*ghi 但是,我希望在abc,def,*ghi中包含星号。如何自定义PBTTokenizer以实现此目的?

1 个答案:

答案 0 :(得分:1)

请参阅我对此问题的回答:

How to set delimiters for PTB tokenizer?

您可以将标记生成器设置为仅在空格上进行标记:

(command-line) -tokenize.whitespace
(in Java code) props.setProperty("tokenize.whitespace", "true");
相关问题