Question

我想在长字符串中找出一些特殊的关键字。以下是示例：

long_str = '''
TX[03]
rqn : 0x73
cqn : 0x12
packets : 888
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0
RX[12]
rqn : 0xa6
cqn : 0x2a
packets : 123
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0

RX[13]
rqn : 0xa9
cqn : 0x2c
packets : 456
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0'''
result = re.findall('RX\[\d+\].*packets\s+:\s+(\d+)', a, re.DOTALL)

但result为['456']，与我预期的['123','456']不同。

如何修复我的重新模式以过滤掉预期值？

提前致谢。

Answer 1

最简单的解决方案是让它变得懒惰：

RX\[\d+\].*?packets\s+:\s+(\d+)

见working on regex101.com。
否则，您的.*构造会耗尽 整个字符串 并在之后回溯（当找到最后一个packets时成功）。

<小时/> 另一个是：

RX\[\d+\]\n
(?:.+\n){2}
packets\D+(\d+)

请参阅this one working here（并注意不同的修饰符！）。

Answer 2

正如文档https://docs.python.org/2/library/re.html中所提到的，'*'，'+'和'?'限定符都是贪婪的;它们匹配尽可能多的文本。有时这种行为是不可取的;如果RE <.*>与<a> b <c>匹配，则它将匹配整个字符串，而不仅仅是<a>。在限定符之后添加?使其以非贪婪或最小的方式执行匹配;尽可能少的字符将匹配。使用RE <.*?>只会匹配<a>。

同样在您的情况下，result = re.findall('RX\[\d+\].*?packets\s+:\s+(\d+)', a, re.DOTALL)会给出预期的结果。

如何使用python re.findall过滤掉这个特殊模式？

2 个答案: