在python中处理大数据的最佳方法

时间:2013-10-14 08:13:34

标签: python xml large-data

我正在使用库XML

阅读50GB blastall个文件(由NCBIXML调用产生)
blasthandle = open( blastfile, 'r' )


blast_records = NCBIXML.parse( blasthandle )
for record in blast_records:
    get some infos from the record ...

读取文件的速度并不慢,但我想对数据执行一些其他操作(将其保存到文本文件中,将其放入数组中,...)

我可以用来执行此类任务的最佳python结构是什么,目前我正在使用普通数组,但它似乎非常慢,而且由于内存问题,我无法将数据保存到文本文件中< / p>

任何帮助将不胜感激。

修改 我试过这个

 blasthandle = open( blastfile, 'r' )
    for event, element in ET.iterparse(blasthandle):
        for child in element:
            print child.tag, child.text
    element.clear()

编辑2

由于Martin

,更新库可以解决问题

0 个答案:

没有答案