如何有效地从Python中的非常大的集合中获取随机样本

时间:2018-05-30 08:06:36

标签: python-2.7 numpy

我正在尝试对可以用作特定数据集的年收入的数字进行抽样。 我有以下代码在内存中爆炸,系统挂起

np.random.choice(xrange(750000, 1000000000), size=254)

然后我将代码更改为 np.random.choice(xrange(75, 100000), size=254) * 10000

代码工作正常,但内存较少。 我真的不确定是否会影响分发中的抽样。

我能以任何有效的方式来做。

0 个答案:

没有答案