大数据的pyplot中的内存错误

时间:2013-01-29 11:24:23

标签: python matplotlib memory large-data

我是python和编程的新手。我试图使用python绘制一个方向图。我在飞机上有大量的点(约1,200,000),每个点都属于一个集群。每个群集应该是不同的颜色。我目前正在做的是为每个聚类分配颜色并在每个点绘制一个实心圆。我尝试通过为不同的段创建绘图并使用混合来组合它们来部分地完成它。这是该部分的代码:(sn是总点数,label是簇号的簇数组,xcoor和ycoor是点的坐标)

pylab.xlim([0,250])
pylab.ylim([0,100])
plt.savefig("HK pickle.png")
for l in range (1, 20):
    for j in range(int((float(sn)/80)*(l-1)), int((float(sn)/80)*(l))):
        overlay = Image.open("HK pickle.png")
        c = label[j] % 8
        if c == 0:
            circle1 = plt.Circle((float(xcoor[j]), float(ycoor[j])), 0.05, color = (0.5, 0, 0))
        elif c == 1:
            circle1 = plt.Circle((float(xcoor[j]), float(ycoor[j])), 0.05, color = (1, 0, 0))
        elif c == 2:
            circle1 = plt.Circle((float(xcoor[j]), float(ycoor[j])), 0.05, color = (0, 0.5, 0))
        elif c == 3:
            circle1 = plt.Circle((float(xcoor[j]), float(ycoor[j])), 0.05, color = (0, 1, 0))
        elif c == 4:
            circle1 = plt.Circle((float(xcoor[j]), float(ycoor[j])), 0.05, color = (0, 0, 0.5))
        elif c == 5:
            circle1 = plt.Circle((float(xcoor[j]), float(ycoor[j])), 0.05, color = (0, 0 ,1))
        elif c == 6:
            circle1 = plt.Circle((float(xcoor[j]), float(ycoor[j])), 0.05, color = (0.5, 0.5 ,0))
        elif c == 7:
            circle1 = plt.Circle((float(xcoor[j]), float(ycoor[j])), 0.05, color = (0.5, 0 ,0.5))
        fig = plt.gcf()
        fig.gca().add_artist(circle1)
        del circle1
    plt.savefig("HK pick.png")
    del fig
    back = Image.open("HK pick.png")
    comp = Image.blend(back, overlay, 0.5)
    comp.save("HK pickle.png", "PNG")
    del comp
pylab.xlim([0,250])
pylab.ylim([0,100])
plt.savefig("HK plots.png")

但是,这会导致以下错误:

    fig.gca().add_artist(circle1)
  File "C:\Python27\lib\site-packages\matplotlib\axes.py", line 1404, in add_artist
    self.artists.append(a)
MemoryError

错误在l = 11时出现。我一直在检查任务管理器,当MemoryError出现时它仍然有近3GB的可用内存。请帮我解决一下这个。

我是新手,但仍然不知道我提供的信息是否足够。如果您需要更多信息,请告诉我

2 个答案:

答案 0 :(得分:1)

您可以使用scatter和关键字rasterized=True做得更好,这会将所有矢量图形展平为光栅图像(这将占用更少的内存)。

类似的东西:

colors_lst = [ ... your tuples ...]
color = map(lambda x: colors_lst[x % 8], labels)
ax.scatter(xcoord, ycoord, c = colors, rasterized=True)

我认为会取代你的大多数剧本。

scatter documentation

答案 1 :(得分:0)

如果您使用的是32位操作系统或运行32位python,您将无法有效地处理大型数据集(安装64位python,numpy,matplotlib等可能会解决此问题)。

但是,我建议您首先尝试以较低的分辨率绘制图片,看看它是否适合您(结果可能足够好)。例如,我首先用{/ p>之类的东西替换j迭代器for j in range(int((float(sn)/80)*(l-1)), int((float(sn)/80)*(l))):

for j in np.linspace(int((float(sn)/80)*(l-1)), int((float(sn)/80)*(l), num=20):
    j = int(j)

这将为您提供范围内的20 j个值,但不是每个整数值。请注意,您需要将j转换为int,因为它可能是np.float

其他样式备注在这一点上不太有用,但一般情况下你不需要经常del - python有一个非常好的垃圾收集器为你做这个。您还可以在迭代器之外设置限制 - 这可以使调试更直接:

start_j = int((float(sn)/80)*(l-1)))
end_j = int((float(sn)/80)*(l))
for j in np.linspace(start_j, end_j, num=20):
    etc.
相关问题