为什么我的python进程占用了这么多内存?

时间:2012-08-03 17:32:27

标签: python optimization memory numpy

我正在开发一个涉及使用python来读取,处理和编写有时大到几百兆字节的文件的项目。当我尝试处理一些特别大的文件时,程序偶尔会失败。它没有说'记忆错误',但我怀疑这是问题(实际上它根本没有理由失败')。

我一直在测试较小文件上的代码并观察“顶部”以查看内存使用情况,并且通常达到60%。 top说我的总内存为4050352k,所以3.8Gb。

与此同时,我正在尝试使用以下一小段代码跟踪python本身的内存使用情况(请参阅yesterday中的问题):

mem = 0
for variable in dir():
    variable_ = vars()[variable]
    try: 
        if str(type(variable_))[7:12] == 'numpy':
            numpy_ = True
        else:
            numpy_ = False
    except:
        numpy_ = False
    if numpy_:
        mem_ = variable_.nbytes
    else:
        mem_ = sys.getsizeof(variable)
    mem += mem_
    print variable+ type: '+str(type(variable_))+' size: '+str(mem_)
print 'Total: '+str(mem)

在我运行该块之前,我将所有不需要的变量设置为None,关闭所有文件和数字等等。在该块之后,我使用subprocess.call()运行一个fortran程序,该程序是下一阶段的处理。在fortran程序运行时查看顶部显示fortran程序正在使用~100%的cpu和~5%的内存,并且python使用0%的cpu和53%的内存。然而,我的一小段代码告诉我,python中的所有变量加起来只有23Mb,应该是~0.5%。

那发生了什么事?我不希望那个小片段能给我一个关于内存使用情况的信息,但它应该准确到几Mb内吗?或者只是顶部没有注意到内存已经被放弃,但是如果有必要,它可以用于需要它的其他程序吗?

根据要求,这里是用尽所有内存的代码的简化部分(file_name.cub是一个ISIS3立方体,它是一个包含相同地图的5层(波段)的文件,第一层是光谱辐射接下来的4个与纬度,经度和其他细节有关。这是我想要处理的火星图像.StartByte是我之前从.cub文件的ascii标题中读取的一个值告诉我的开头字节data,Samples和Lines是地图的尺寸​​,也可以从标题中读取。):

latitude_array = 'cheese'   # It'll make sense in a moment
f_to = open('To_file.dat','w') 

f_rad = open('file_name.cub', 'rb')
f_rad.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_rad.read(StartByte-1))
header = None    
#
f_lat = open('file_name.cub', 'rb')
f_lat.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_lat.read(StartByte-1))
header = None 
pre=struct.unpack('%df' % (Samples*Lines), f_lat.read(Samples*Lines*4))
pre = None
#
f_lon = open('file_name.cub', 'rb')
f_lon.seek(0)
header=struct.unpack('%dc' % (StartByte-1), f_lon.read(StartByte-1))
header = None 
pre=struct.unpack('%df' % (Samples*Lines*2), f_lon.read(Samples*Lines*2*4))
pre = None
# (And something similar for the other two bands)
# So header and pre are just to get to the right part of the file, and are 
# then set to None. I did try using seek(), but it didn't work for some
# reason, and I ended up with this technique.
for line in range(Lines):
    sample_rad = struct.unpack('%df' % (Samples), f_rad.read(Samples*4))
    sample_rad = np.array(sample_rad)
    sample_rad[sample_rad<-3.40282265e+38] = np.nan  
    # And Similar lines for all bands
    # Then some arithmetic operations on some of the arrays
    i = 0
    for value in sample_rad:
        nextline = sample_lat[i]+', '+sample_lon[i]+', '+value # And other stuff
        f_to.write(nextline)
        i += 1
    if radiance_array == 'cheese':  # I'd love to know a better way to do this!
        radiance_array = sample_rad.reshape(len(sample_rad),1)
    else:
        radiance_array = np.append(radiance_array, sample_rad.reshape(len(sample_rad),1), axis=1)
        # And again, similar operations on all arrays. I end up with 5 output arrays
        # with dimensions ~830*4000. For the large files they can reach ~830x20000
f_rad.close()
f_lat.close()
f_to.close()   # etc etc 
sample_lat = None  # etc etc
sample_rad = None  # etc etc

#
plt.figure()
plt.imshow(radiance_array)
# I plot all the arrays, for diagnostic reasons

plt.show()
plt.close()

radiance_array = None  # etc etc
# I set all arrays apart from one (which I need to identify the 
# locations of nan in future) to None

# LOCATION OF MEMORY USAGE MONITOR SNIPPET FROM ABOVE

所以我在关于打开几个文件的评论中撒了谎,这是同一个文件的很多实例。我只继续使用一个未设置为None的数组,并且它的大小为~830x4000,尽管这在某种程度上构成了我可用内存的50%。我也试过gc.collect,但没有变化。我很高兴听到有关如何改进任何代码的任何建议(与此问题或其他相关)。

也许我应该提一下:最初我是完全打开文件(即不是一行一行),一行一行是节省内存的初步尝试。

1 个答案:

答案 0 :(得分:12)

仅仅因为你对变量进行了修改并不意味着Python进程已经将已分配的内存返回给系统。请参阅How can I explicitly free memory in Python?

<强>更新

如果gc.collect()不适合您,请使用IPC调查在子进程中分叉和读/写文件。这些过程将在完成后结束,并将内存释放回系统。您的主进程将继续以低内存使用率运行。