Question

我正在整理一个相当复杂的正则表达式。表达式的一部分匹配字符串，例如'+ a'，' - 57'等.A +或a - 后跟任意数量的字母或数字。我想匹配匹配此模式的0个或更多字符串。

这是我提出的表达方式：

([\+-][a-zA-Z0-9]+)*

如果我使用这种模式搜索字符串'-56 + a'，我希望得到两个匹配：

+ a和-56

但是，我只返回了最后一场比赛：

>>> m = re.match("([\+-][a-zA-Z0-9]+)*", '-56+a')
>>> m.groups()
('+a',)

查看python文档，我看到了：

如果一个组多次匹配，则只能访问最后一个匹配：
>>> m = re.match(r"(..)+", "a1b2c3")  # Matches 3 times.
>>> m.group(1)                        # Returns only the last match.
'c3'

所以，我的问题是：你如何访问多个群组匹配？

Answer 1

从正则表达式中删除*（因此它只与您的模式的一个实例匹配）。然后使用re.findall(...)或re.finditer（请参阅here）返回所有匹配项。

<强>更新

听起来你实际上正在构建一个recursive descent parser。对于相对简单的解析任务，手动执行此操作是非常常见且完全合理的。如果您对库解决方案感兴趣（例如，以后您的解析任务可能会变得更复杂），请查看pyparsing。

Answer 2

regex module通过添加.captures方法解决了这个问题：

>>> m = regex.match(r"(..)+", "a1b2c3")
>>> m.captures(1)
['a1', 'b2', 'c3']

正则表达式：如何访问组的多个匹配项？

2 个答案: