Question

因此，我想要使用正则表达式匹配一长串Unicode字符：

char_set = '\u0041-\u005A|\u00C0-\u00D6|\u00D8-\u00DE|\u0100|\u0102|\u0104|\u0106|\u0108|\u010A|\u010C|\u010E|\u0110|\u0112|\u0114|\u0116|\u0118|\u011A|\u011C|\u011E|\u0120|\u0122|\u0124|\u0126|\u0128|\u012A|\u012C|\u012E|\u0130|\u0132|\u0134|\u0136|\u0139|\u013B|\u013D|\u013F|\u0141|\u0143|\u0145|\u0147|\u014A|\u014C|\u014E|\u0150|\u0152|\u0154|\u0156|\u0158|\u015A|\u015C|\u015E|\u0160|\u0162|\u0164|\u0166|\u0168|\u016A|\u016C|\u016E|\u0170|\u0172|\u0174|\u0176|\u0178|\u0179|\u017B|\u017D'

（这些都是在Unicode范围0-382中理解的所有大写字符。大多数都是重音.PEP8不鼓励在Python脚本中使用非ASCII字符，所以我使用Unicode代码而不是字符串文字。）

如果我直接编译那个长字符串，它就可以了。例如，这匹配所有以其中一个字符开头的单词：

regex = re.compile(u'\A[\u0041-\u005A|\u00C0-\u00D6|\u00D8-\u00DE|\u0100|\u0102|\u0104|\u0106|\u0108|\u010A|\u010C|\u010E|\u0110|\u0112|\u0114|\u0116|\u0118|\u011A|\u011C|\u011E|\u0120|\u0122|\u0124|\u0126|\u0128|\u012A|\u012C|\u012E|\u0130|\u0132|\u0134|\u0136|\u0139|\u013B|\u013D|\u013F|\u0141|\u0143|\u0145|\u0147|\u014A|\u014C|\u014E|\u0150|\u0152|\u0154|\u0156|\u0158|\u015A|\u015C|\u015E|\u0160|\u0162|\u0164|\u0166|\u0168|\u016A|\u016C|\u016E|\u0170|\u0172|\u0174|\u0176|\u0178|\u0179|\u017B|\u017D]')

但我想在其他几个正则表达式中重复使用相同的字符序列。我可以简单地复制并粘贴它，但这很难看。所以基于之前对类似问题的回答，我试过这个：

regex = re.compile(u'\A[%s]' % char_set)

不好。不知何故，上面的表达式似乎与任何字符匹配，而不仅仅是变量'char_set'下的硬编码。

我也试过这个：

regex = re.compile(u'\A[' + char_set + ']')

而且：

regex = re.compile(u'\A[' + re.escape(char_set) + ']')

这也是：

regex = re.compile(u'\A[{ }]'.format(char_set))

其中没有一个按预期工作。

有什么想法？我做错了什么？

（我使用的是Python 2.7和Mac OS X 10.6）

Answer 1

当您在方括号中使用带有一组字符的模式时，您不希望在集合中放置任何竖线（|）字符。相反，只需将字符串在一起就可以了。这是一个会话，我在剥离|字符后试用了你的角色没有问题：

>>> import re
>>> char_set = u'\u0041-\u005A|\u00C0-\u00D6|\u00D8-\u00DE|\u0100|\u0102|\u0104|\u0106|\u0108|\u010A|\u010C|\u010E|\u0110|\u0112|\u0114|\u0116|\u0118|\u011A|\u011C|\u011E|\u0120|\u0122|\u0124|\u0126|\u0128|\u012A|\u012C|\u012E|\u0130|\u0132|\u0134|\u0136|\u0139|\u013B|\u013D|\u013F|\u0141|\u0143|\u0145|\u0147|\u014A|\u014C|\u014E|\u0150|\u0152|\u0154|\u0156|\u0158|\u015A|\u015C|\u015E|\u0160|\u0162|\u0164|\u0166|\u0168|\u016A|\u016C|\u016E|\u0170|\u0172|\u0174|\u0176|\u0178|\u0179|\u017B|\u017D'
>>> fixed_char_set = char_set.replace("|", "")   # remove the unneeded vertical bars
>>> pattern = ur"\A[{}]".format(fixed_char_set)  # create a pattern string
>>> regex = re.compile(pattern) # compile the pattern into a regex object
>>> print regex.match("%foo")   # "%" is not in the character set, so match returns None
None

编辑：实际上，似乎必须有其他问题，因为即使我使用原始的char_set而不删除任何内容，我也不匹配"%foo"。请提供不应该匹配的文本示例！

不能在正则表达式中使用变量

1 个答案: