Spacy tokenizer,添加tokenizer异常

时间:2017-11-15 17:02:24

标签: nlp tokenize spacy

喂!我试图在使用spacy 2.02标记化一些令牌时添加异常,我知道存在 .tokenizer.add_special_case()我在某些情况下使用它,但是例如像US $ 100这样的令牌,spacy splits两个令牌

  

(' US $',' SYM'),(' 100',' NUM')

但是我想分成这样三个,而不是在$ $之后对每个数字做一个特殊情况,我想对每个格式为$ NUMBER的令牌进行删除。

  

(' US',' PROPN'),(' $',' SYM'),' 800& #39;,' NUM')

我正在阅读关于spacy文档的TOKENIZER_EXCEPTIONS,但我无法弄清楚如何做到这一点。

我正在尝试使用

  来自spacy.lang.en.tokenizer_exceptions的

导入TOKENIZER_EXCEPTIONS    还有spacy.util,它有一个方法update_exc()。

有人可以发布关于如何操作的完整代码示例吗?

哦,另一件事,我知道lang.en上的文件tokenizer_exceptions已经有一些例外,例如split" i' m" in" i" "' m",我已经评论过那部分但不会起作用。我不想让分词器分开"我" m"我怎么也能这样做?

谢谢

0 个答案:

没有答案