在Unicode中选择字符范围

时间:2019-02-23 13:06:07

标签: python unicode character-encoding python-unicode

说我想解析一个字符串并删除某个范围内的所有字符,例如,如果我想删除字符串中的所有表情符号。一个完成此操作的示例是在python的IDLE中打印文本,其中BMP范围不包含表情符号,如果尝试,将吐出错误。在线解决此错误的常见方法是:

"".join((i if ord(i) < 10000 else '\ufffd' for i in s))

其中字符限制为10000,超过此限制的所有字符将更改为unicode替换字符..

为什么是10000? Another solution online with this exact code uses 65000

我将如何选择所需的字符数限制?在我的实际情况下,对于Python 3?

我想您是根据一些python文档中说的BMP限制为基础的,但是我找不到,所以一个实际的限制应该包括所有重要字符,例如数字和字母,例如一个句子包括超出范围的字符,仍然可以理解吗?

谢谢,英语不好,我不能很好地解释我的问题

0 个答案:

没有答案