正则表达式在名单列表输入文件中解析键值对

时间:2013-01-04 22:03:53

标签: python regex parsing key-value

我有一个输入文件,它是Fortran“namelist”格式,我想用python正则表达式解析。最简单的演示方式是一个虚构的例子:

$VEHICLES
 CARS= 1,
 TRUCKS = 0,
 PLAINS= 0, TRAINS = 0,
 LIB='AUTO.DAT',
C This is a comment
C Data variable spans multiple lines
 DATA=1.2,2.34,3.12,
      4.56E-2,6.78,
$END
$PLOTTING
 PLOT=T,
 PLOT(2)=12,
$END

因此,键可以包含常规变量名字符以及括号和数字。值可以是字符串,布尔值(T,F,.T。,.F。,TRUE,FALSE,.TRUE。,.FALSE。都是可能的),整数,浮点数或逗号分隔的数字列表。键用等号连接到它们的值。键值对用逗号分隔,但可以共享一行。对于长数字列表,值可以跨越多行。注释是以C开头的任何行。在'='和','之前和之后通常存在不一致的间距。

我已经提出了一个有效的正则表达式来解析键和值并将它们放入有序字典(需要保留输入顺序)。

到目前为止,这是我的代码。我已经包括了从阅读文件到保存到字典的所有内容。

import re
from collections import OrderedDict

f=open('file.dat','r')
file_str=f.read()

#Compile regex pattern for requested namelist
name='Vehicles'

p_namelist = re.compile(r"\$"+name.upper()+"(.*?)\$END",flags=re.DOTALL|re.MULTILINE)

#Execute regex on file string and get a list of captured tokens
m_namelist = p_namelist.findall(file_str)

#Check for a valid result
if m_namelist:
    #The text of the desired namelist is the first captured token
    namelist=m_namelist[0]

#Split into lines
lines=namelist.splitlines()

#List comprehension which returns the list of lines that do not start with "C"
#Effectively remove comment lines
lines = [item for item in lines if not item.startswith("C")]

#Re-combine now that comment lines are removed
namelist='\n'.join(lines)

#Create key-value parsing regex
p_item = re.compile(r"([^\s,\=]+?)\s*=\s*([^=]+)(?=[\s,][^\s,\=]+\s*\=|$)",flags=re.DOTALL|re.MULTILINE)

#Execute regex
items = p_item.findall(namelist)

#Initialize namelist ordered dictionary
n = OrderedDict()

#Remove undesired characters from value    
for item in items:
    n[item[0]] = item[1].strip(',\r\n ')

我的问题是我是否正确地解决了这个问题。我意识到有一个ConfigParser库,我还没有尝试过。我的重点是正则表达式:

([^\s,\=]+?)\s*=\s*([^=]+)(?=[\s,][^\s,\=]+\s*\=|$)

但我继续前进并包含了其他完整性代码,并展示了我正在做的事情。对于我的正则表达式,因为值可以包含逗号,并且键值对也用逗号分隔,所以没有简单的方法来隔离对。我选择使用前瞻性前瞻来找到下一个键和“=”。这允许“=”和下一个键之间的所有内容都是值。最后,因为这对最后一对不起作用,我将“| $”放入前向预测意味着如果找不到另一个“VALUE =”,则查找字符串的结尾。我认为将值与[^ =] +匹配后跟前瞻比尝试匹配所有可能的值类型更好。

在写这个问题时,我提出了一个替代的正则表达式,它利用了数字是列表中唯一值的事实:

 ([^\s,\=]+?)\s*=\s*((?:\s*\d[\d\.\E\+\-]*\s*,){2,}|[^=,]+)

这个匹配带有(?:\s*\d[\d\.\E\+\-]*\s*,){2,}的2个或更多数字的列表,或者与[^=,]的下一个逗号之前的任何内容。

这些有点凌乱的正则表达式是解析这样一个文件的最佳方法吗?

1 个答案:

答案 0 :(得分:2)

我建议开发更复杂的解析器。

我偶然发现谷歌代码托管上的项目实现了非常类似的解析器功能:Fortran Namelist parser for Python prog/scripts但它是针对不同格式构建的。 我稍微玩了一下并更新它以支持示例中格式的结构:

请在gist上查看我的版本: Updated Fortran Namelist parser for python https://gist.github.com/4506282

我希望这个解析器可以帮助您完成项目。

以下是解析FORTRAN代码示例后脚本生成的示例输出:

{'PLOTTING': 
    {'par': 
        [OrderedDict([('PLOT', ['T']), ('PLOT(2) =', ['12'])])],
    'raw': ['PLOT=T', 'PLOT(2)=12']},
 'VEHICLES': 
    {'par': 
        [OrderedDict([('TRUCKS', ['0']), ('PLAINS', ['0']), ('TRAINS', ['0']), ('LIB', ['AUTO.DAT']), ('DATA', ['1.2', '2.34', '3.12', '4.56E-2', '6.78'])])],
  'raw': 
                ['TRUCKS = 0',
                  'PLAINS= 0, TRAINS = 0',
                  "LIB='AUTO.DAT'",
                  'DATA=1.2,2.34,3.12',
                  '4.56E-2,6.78']}}