从字符串中提取名称和数字

时间:2018-07-04 09:38:22

标签: python regex

类似于this question,我有一串用冒号分隔的名称和数字:

s = 'Waz D: 5 l gu l: 5 GrinVe: 3 P LUK: 2 Cubbi: 1 2 nd dok: 1 maf 74: 1 abr12: 1 Waza D 5'

我正尝试将其拆分为:

 ('Waz D', '5'),
 ('l gu l', '5'),
 ('GrinVe', '3'),
 ('P LUK', '2'),
 ('Cubbi', '1'),
 ('2 nd dok', '1')
 ('maf 74', '1')
 ('abr12', '1')

到目前为止,我已经尝试了两个正则表达式,但取得了不同的成功:

re.findall(r"(.*?)[a-zA-Z0-9]+: (\d+)*", s)
[('Waz ', '5'),
 (' l gu ', '5'),
 (' ', '3'),
 (' P ', '2'),
 (' ', '1'),
 (' 2 nd ', '1'),
 (' maf ', '1'),
 (' ', '1')]

并且:

re.findall(r"(.*?)([a-zA-Z0-9]+): (\d+)*", s)
[('Waz ', 'D', '5'),
 (' l gu ', 'l', '5'),
 (' ', 'GrinVe', '3'),
 (' P ', 'LUK', '2'),
 (' ', 'Cubbi', '1'),
 (' 2 nd ', 'dok', '1'),
 (' maf ', '74', '1'),
 (' ', 'abr12', '1')]

如何调整此值以获得我想要的输出?

6 个答案:

答案 0 :(得分:1)

贪婪地使用空格,不要将其放入匹配的组中。

>>> import re
>>> s = 'Waz D: 5 l gu l: 5 GrinVe: 3 P LUK: 2 Cubbi: 1 2 nd dok: 1 maf 74: 1 abr12: 1 Waza D 5'
>>> 
>>> re.findall('([^:]+?):\s*(\d+)\s*', s)
[('Waz D', '5'), ('l gu l', '5'), ('GrinVe', '3'), ('P LUK', '2'), ('Cubbi', '1'), ('2 nd dok', '1'), ('maf 74', '1'), ('abr12', '1')]

答案 1 :(得分:1)

如果我们假设字符串始终后面跟有分号,空格,数字,空格序列,则可以这样做:

re.findall(r"(.+?):\s(\d+)\s", s)

[('Waz D', '5'),
 ('l gu l', '5'),
 ('GrinVe', '3'),
 ('P LUK', '2'),
 ('Cubbi', '1'),
 ('2 nd dok', '1'),
 ('maf 74', '1'),
 ('abr12', '1')]

答案 2 :(得分:1)

这归结为拆分组合: \d,除此之外别无其他选择(除了在此处和此处抑制前导和后跟空格)。它所需要的就是一组不包含冒号:的任意长度,其后是该冒号,然后是一串数字。

import re
s = 'Waz D: 5 l gu l: 5 GrinVe: 3 P LUK: 2 Cubbi: 1 2 nd dok: 1 maf 74: 1 abr12: 1 Waza D 5'

print (re.findall(r'([^:]+):\s*(\d+)\s+', s))

结果:

[('Waz D', '5'),
 ('l gu l', '5'),
 ('GrinVe', '3'),
 ('P LUK', '2'),
 ('Cubbi', '1'),
 ('2 nd dok', '1'),
 ('maf 74', '1'),
 ('abr12', '1')]

答案 3 :(得分:1)

您可以匹配零次或多次匹配空白字符,然后使用否定的字符类([^:]+)在非冒号的组中进行捕获。

然后匹配一个冒号,零个或多个空格字符\s*,并在一组中捕获一个或多个数字(\d+)

\s*([^:]+):\s*(\d+)

Demo

答案 4 :(得分:0)

在您的示例中,名称通常以字母开头,但在一种情况下-以数字开头。

第一个捕获组的名称应为:

  • [a-z\d]开始(记住结尾处的re.I标志)
  • 然后它应包含[^:]*-:以外的一系列字符。

您的解决方案([a-zA-Z0-9]+)是错误的,因为名称可以包含空格。

与数字匹配的第二组很简单-仅\d+

在这两组之间应该有:\s*-一个冒号和一系列白色字符。

该代码包含对re.findall的单个调用,如下所示:

re.findall(r"([a-z\d][^:]*):\s*(\d+)", s, flags=re.I)

但是我对您的样本中的Cubbi: 1 2表示怀疑。 2 真的应该成为下一个名称的一部分吗?

如果没有,请考虑将正则表达式更改为:([a-z][^:]*):\s*(\d+(?: \d+)?)。差异:

  • 名称必须以字母(不是数字)开头
  • 该数字可以包含“第二部分”,并在前面加上单个空格- (?: \d+)?

然后1 2将是Cubbi的“数字”,其名字将从“ nd”开始。

样本末尾的Waza D 5又如何呢? 您是否忘记将冒号放在5之前?

答案 5 :(得分:0)

我的解决方案

我在Waza D之后添加了':',因为我认为应该是(我认为这是一个错字,因为规则应该是name:number)。对我来说,模式是一个以字母开头的名称,然后是其他字母/数字和空格,直到::一个空格和一个数字。

public class ChildFactory {

    protected final ChildRepository childRepository;

    public ChildFactory(ChildRepository childRepository) {
        this.childRepository = childRepository;
    }

    @ObjectFactory
    public Child create(ChildDTO childDTO) {
        Child child = childRepository.findById(childDTO.getId());
        return child == null ? new Child() : child;
    }
}

输出

s = 'Waz D: 5 l gu l: 5 GrinVe: 3 P LUK: 2 Cubbi: 1 2 nd dok: 1 maf 74: 1 abr12: 1 Waza D: 5'

import re

# \w find something starting with a letter
# [\w\s]+ followed by any number of letter and space
# : followed by a :
# \s[0-9] and a space and a number
x = re.findall(r"\w[\w\s]+:\s[0-9]", s)
print(*x, sep="\n")