Python进程在执行期间突然被杀死

时间:2012-10-10 23:49:06

标签: python memory memory-leaks process psycopg2

我是python的新手,面对的是内存泄漏错误。 我编写了一个简单的脚本,试图从postgres数据库中获取多个列,然后继续对这些列执行简单的减法,并将结果存储在一个临时变量中,该变量将写入文件。我需要在db的多对列上执行此操作,并且我使用列表列表来存储不同的列名。

我循环遍历此列表中的各个元素,直到列表用完为止。虽然我获得了前几个列对的有效结果(通过有效我的意思是输出文件包含期望的值),但是程序在执行之间的某处突然被“杀死”。代码如下:

varList = [ ['table1', 'col1', 'col2'],
        ['table1', 'col3', 'col4'],
        ['table2', 'col1', 'col2'],
        # ..
        # and many more such lines
        # ..
        ['table2', 'col3', 'col4']]

try:

    conn = psycopg2.connect(database='somename', user='someuser', password='somepasswd')

    c = conn.cursor()

    for listVar in varList:
        c.execute("SELECT %s FROM %s" %(listVar[1], listVar[0]))

        rowsList1 = c.fetchall();

        c.execute("SELECT %s FROM %s" %(listVar[2], listVar[0]))

        rowsList2 = c.fetchall();

        outfile = file('%s__%s' %(listVar[1], listVar[2]), 'w')

        for i in range(0, len(rowsList1)):
            if rowsList1[i][0] == None or rowsList2[i][0] == None:
                timeDiff = -1

            else:
                timestamp1 = time.mktime(rowsList1[i][0].timetuple())
                timestamp2 = time.mktime(rowsList2[i][0].timetuple())
                timeDiff = timestamp2 - timestamp1

            outfile.write(str(timeDiff) + '\n')

        outfile.close();

    del rowsList1, rowsList2

#numpy.savetxt('output.dat', column_stack(rows))

except psycopg2.DatabaseError, e:
    print 'Error %s' % e
    sys.exit(1)

finally:
    if conn:
        conn.close()

我最初的猜测是存在某种形式的内存泄漏,并且为了解决这个问题,我在两个大数组上添加了一个del语句,希望能够正确收集内存。这一次,我得到了稍微好一点的输出(略微好一点,我的意思是为db列对创建了更多的输出文件)。 然而,在第10或第11对列之后,我的程序再次被“杀死”。谁能告诉我这里可能有什么问题。有没有更好的方法来完成这项工作? 任何帮助表示赞赏。

PS:我知道这是一个相当低效的实现,因为我循环多次,但我需要一些快速而肮脏的概念证明。

1 个答案:

答案 0 :(得分:1)

我认为这里的问题是你在选择所有内容然后在应用程序代码中过滤它时应该选择sql查询所需的内容。如果你在sql查询中选择你想要的内容,如下所示:

对于varlist中的listvar,

:     从listvar [0]中选择listvar [1],listvar [2],其中listvar [1]不为null且listvar [2]不为null

# then...

timeDiff = {}
for row in rows:
    timestamp1 = time.mktime(row[0].timetuple())
    timestamp2 = time.mktime(row[0].timetuple())
    timeDiff[identifier] = timestamp2 - timestamp1 #still need to assoc timediff with row... maybe you need to query a unique identifyer also?

#and possibly a separate... (this may not be necessary depending on your application code.  do you really need -1's for irrelevant data or can you just return the important data?)

select listvar[1], listvar[2] from listvar[0] where listvar[1] is null or listvar[2] is null

for row in rows:
    timeDiff[identifier] = -1 # or None