UTF-8字符更改为两个字符

时间:2010-02-10 08:37:26

标签: utf-8

在我的文本文件中,我使用了值大于127的字符,例如0xDC。然后我将该文本文件加载到设备中。然后我读了那个文本文件和那个角色。然后将字符更改为0xC3和0x9C。怎么变成两个角色?

由于

2 个答案:

答案 0 :(得分:2)

因为这是以UTF-8编码时字符的序列:

>>> '\xc3\x9c'.decode('utf-8')
u'\xdc'

答案 1 :(得分:1)

From wikipedia:

“UTF-8以1到4个八位字节(8位字节)对每个字符(代码点)进行编码,单个八位字节编码仅用于128个US-ASCII字符。” < / p>