这最终消耗了我所有可用的内存,然后该进程被终止。我已尝试将代码从schedule
更改为“较小”代码,但这并没有什么区别。
我做错了什么/如何使用iterparse()
处理这个大文件?
import lxml.etree
for schedule in lxml.etree.iterparse('really-big-file.xml', tag='schedule'):
print "why does this consume all my memory?"
我可以轻松地将其切割并以较小的块进行处理,但这比我想要的更糟糕。
答案 0 :(得分:22)
当iterparse
遍历整个文件时,将构建一个树,并且不会释放任何元素。这样做的好处是元素可以记住父元素是谁,并且可以形成引用祖先元素的XPath。缺点是它会占用大量内存。
为了在解析时释放一些内存,请使用Liza Daly的fast_iter
:
def fast_iter(context, func, *args, **kwargs):
"""
http://lxml.de/parsing.html#modifying-the-tree
Based on Liza Daly's fast_iter
http://www.ibm.com/developerworks/xml/library/x-hiperfparse/
See also http://effbot.org/zone/element-iterparse.htm
"""
for event, elem in context:
func(elem, *args, **kwargs)
# It's safe to call clear() here because no descendants will be
# accessed
elem.clear()
# Also eliminate now-empty references from the root node to elem
for ancestor in elem.xpath('ancestor-or-self::*'):
while ancestor.getprevious() is not None:
del ancestor.getparent()[0]
del context
你可以这样使用:
def process_element(elem):
print "why does this consume all my memory?"
context = lxml.etree.iterparse('really-big-file.xml', tag='schedule', events = ('end', ))
fast_iter(context, process_element)
我强烈推荐fast_iter
所基于的the article;如果您处理大型XML文件,它应该特别有趣。
上面提到的fast_iter
是所显示的版本的略微修改版本
在文章中。这个更加积极地删除以前的祖先,
从而节省更多内存。 Here you'll find a script证明了这一点
差。
答案 1 :(得分:4)
直接从http://effbot.org/zone/element-iterparse.htm
复制请注意,iterparse仍然构建一个树,就像解析一样,但是您可以在解析时安全地重新排列或删除树的一部分。例如,要解析大文件,您可以在处理完元素后立即删除元素:
for event, elem in iterparse(source):
if elem.tag == "record":
... process record elements ...
elem.clear()
上述模式有一个缺点;它不会清除根元素,因此您最终会得到一个包含许多空子元素的元素。如果您的文件很大,而不是很大,这可能是个问题。要解决这个问题,您需要掌握根元素。最简单的方法是启用启动事件,并保存对变量中第一个元素的引用:
# get an iterable
context = iterparse(source, events=("start", "end"))
# turn it into an iterator
context = iter(context)
# get the root element
event, root = context.next()
for event, elem in context:
if event == "end" and elem.tag == "record":
... process record elements ...
root.clear()
答案 2 :(得分:0)
这对我来说非常有用:
def destroy_tree(tree):
root = tree.getroot()
node_tracker = {root: [0, None]}
for node in root.iterdescendants():
parent = node.getparent()
node_tracker[node] = [node_tracker[parent][0] + 1, parent]
node_tracker = sorted([(depth, parent, child) for child, (depth, parent)
in node_tracker.items()], key=lambda x: x[0], reverse=True)
for _, parent, child in node_tracker:
if parent is None:
break
parent.remove(child)
del tree