nlp - Spacy tokenizer，添加tokenizer异常

喂！我试图在使用spacy 2.02标记化一些令牌时添加异常，我知道存在 .tokenizer.add_special_case（）我在某些情况下使用它，但是例如像US $ 100这样的令牌，spacy splits两个令牌

（＆＃39; US $＆＃39;，＆＃39; SYM＆＃39;），（＆＃39; 100＆＃39;，＆＃39; NUM＆＃39;）

但是我想分成这样三个，而不是在$ $之后对每个数字做一个特殊情况，我想对每个格式为$ NUMBER的令牌进行删除。

（＆＃39; US＆＃39;，＆＃39; PROPN＆＃39;），（＆＃39; $＆＃39;，＆＃39; SYM＆＃39;），＆＃39; 800＆＃39;，＆＃39; NUM＆＃39;）

我正在阅读关于spacy文档的TOKENIZER_EXCEPTIONS，但我无法弄清楚如何做到这一点。

我正在尝试使用

来自spacy.lang.en.tokenizer_exceptions的
导入TOKENIZER_EXCEPTIONS 还有spacy.util，它有一个方法update_exc（）。

有人可以发布关于如何操作的完整代码示例吗？

哦，另一件事，我知道lang.en上的文件tokenizer_exceptions已经有一些例外，例如split＆＃34; i＆＃39; m＆＃34; in＆＃34; i＆＃34; ＆＃34;＆＃39; m＆＃34;，我已经评论过那部分但不会起作用。我不想让分词器分开＆＃34;我＆＃34; m＆＃34;我怎么也能这样做？

谢谢

Spacy tokenizer，添加tokenizer异常

0 个答案: