如何使用python re.findall过滤掉这个特殊模式?

时间:2017-01-04 18:21:50

标签: python regex

我想在长字符串中找出一些特殊的关键字。 以下是示例:

long_str = '''
TX[03]
rqn : 0x73
cqn : 0x12
packets : 888
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0
RX[12]
rqn : 0xa6
cqn : 0x2a
packets : 123
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0

RX[13]
rqn : 0xa9
cqn : 0x2c
packets : 456
encap : 0
csumNone : 0
csumOk : 0
lroPackets : 0
lroBytes : 0
wqeErr : 0'''
result = re.findall('RX\[\d+\].*packets\s+:\s+(\d+)', a, re.DOTALL)

result['456'],与我预期的['123','456']不同。

如何修复我的重新模式以过滤掉预期值?

提前致谢。

2 个答案:

答案 0 :(得分:4)

最简单的解决方案是让它变得懒惰:

RX\[\d+\].*?packets\s+:\s+(\d+) 

working on regex101.com
否则,您的.*构造会耗尽 整个字符串 并在之后回溯(当找到最后一个packets时成功)。

<小时/> 另一个是:

RX\[\d+\]\n
(?:.+\n){2}
packets\D+(\d+)

请参阅this one working here(并注意不同的修饰符!)。

答案 1 :(得分:1)

正如文档https://docs.python.org/2/library/re.html中所提到的,'*''+''?'限定符都是贪婪的;它们匹配尽可能多的文本。有时这种行为是不可取的;如果RE <.*><a> b <c>匹配,则它将匹配整个字符串,而不仅仅是<a>。在限定符之后添加?使其以非贪婪或最小的方式执行匹配;尽可能少的字符将匹配。使用RE <.*?>只会匹配<a>

同样在您的情况下,result = re.findall('RX\[\d+\].*?packets\s+:\s+(\d+)', a, re.DOTALL)会给出预期的结果。