Question

有人可以解释为什么python 2.7x中的中间代码摘录会引发错误吗？

import re
walden = "Waldenström"
walden
print(walden)

s1 = "ö"
s2 = "Wal"
s3 = "OOOOO"

out = re.sub(s1, s3, walden)
print(out)

out = re.sub("W", "w", walden)
print(out)

# I need this one to work
out = re.sub('W', u'w', walden)
# ERROR

out = re.sub(u'W', 'w', walden)
print(out)

out = re.sub(s2, s1, walden)
print(out)

我很困惑，并尝试阅读手册

Answer 1

walden是str：

walden = "Waldenström"

此代码用unicode字符串替换字符：

re.sub('W', u'w', walden)

结果应为u'w' + "aldenström"。这是失败的部分。

为了连接str和unicode，必须先将两者都转换为unicode。结果也是unicode。

问题是，解释器不知道如何将'ö'转换为unicode，因为它不知道要使用哪种编码。结果很模糊。

解决方案是在进行替换之前转换自己：

re.sub('W', u'w', unicode(walden, encoding))

encoding应该是您用来创建该文件的文件，例如

re.sub('W', u'w', unicode(walden, 'utf-8'))

被python的unicode正则表达式错误所困惑

1 个答案: