使用minidom从子节点检索值

时间:2011-08-09 18:47:22

标签: python xml minidom

我是XML的新手,我试图从childnodes中检索值

from xml.dom import minidom

def Get_ExtList(progName):
    progFile='%s.xml'%progName
    xmldoc = minidom.parse(progFile)
    extList=[]
    rootNode=xmldoc.firstChild
    progNode=rootNode.childNodes[1]
    for fileNodes in progNode.childNodes:
        newList=[]      
        for formatNodes in fileNodes.childNodes:        
            for nodes in formatNodes.childNodes:
                x=nodes.toxml()
                x=' '.join(x.split())
                newList.append(str(x))
        extList.append(newList)     
    print extList

输出:

[[], [‘.aaa'], [], [‘.bbb'], [], [‘.ccc'], [], [‘.ddd'], [], [‘.xxx', ‘.yyy'], []]

但我想要的东西如下

[[‘.aaa'], [‘.bbb'],[‘.ccc’],[‘.ddd'],[‘.xxx', ‘.yyy']]

以下是一个示例文件:

<?xml version="1.0" ?>
<program>
  <progname name="TEST">
    <file>
      <format>
        .aaa
      </format>
    </file>
    <file>
      <format>
        .bbb
      </format>
    </file>
    <file>
      <format>
        .ccc
      </format>
    </file>
    <file>
      <format>
        .ddd
      </format>
    </file>
    <file>
      <format>
        .xxx
      </format>
      <format>
        .yyy
      </format>
    </file>
  </progname>
</program>

3 个答案:

答案 0 :(得分:1)

您不仅要通过包含<file>标记(ELEMENT_NODE节点类型)的节点进行循环,还要使用缩进空格(TEXT_NODE节点类型)进行循环。例如,在这个元素中:

<a>
  <b>c</b>
</a>

有三个要素:

  • TEXT_NODE,其值为\n__(以_表示的空格)
  • ELEMENT_NODE,其值为<b>c</b>
  • TEXT_NODE,其值为\n

如果该格式的格式不同:<a><b>c</b></a>内部只有一个ELEMENT_NODE

您可以跳过这些节点:

for fileNodes in progNode.childNodes:    
    if fileNodes.nodeType != fileNodes.ELEMENT_NODE:    
        continue

或检查是否为正确的节点创建了newList并仅为ELEMENT_NODE添加了内容:

    if fileNodes.nodeType == fileNodes.ELEMENT_NODE:    
        extList.append(newList)         

否则你会得到附加的空列表[]

答案 1 :(得分:0)

DOM节点可以是元素,文本甚至注释。另请注意,toxml不应用于提取文本内容。而是使用文本节点的.data属性:

for nodes in formatNodes.childNodes:
    if node.nodeType == node.ELEMENT_NODE:
        tns =(tn.data for tn in node.childNodes if tn.nodeType == node.TEXT_NODE)
        newList.append(''.join(tns).strip())

答案 2 :(得分:0)

在这种情况下,您可以尝试处理列表并删除空元素:

>>> list = [[], ['.inp'], [], ['.mdp'], [], ['.xtc'], [], ['.top'], [], ['.gro', '.pdb'], []]
>>> for i in list:
...   if not i:
...     list.remove(i)
... 
>>> list
[['.inp'], ['.mdp'], ['.xtc'], ['.top'], ['.gro', '.pdb']]