在h5py数据集上调用random.shuffle如何工作?

时间:2019-07-19 09:40:44

标签: python bigdata shuffle h5py

我有一个要洗牌的150Gb h5py数据集。

在这篇帖子Shuffle HDF5 dataset using h5py中,用户说,洗钱30Gb数据花了11分钟。但是,我尝试对数据集进行改组,这看起来耗时超过55分钟(我最终不得不取消了)。

时间是否不随数据集大小线性增加? random.shuffle如何处理数据集?一次加载单个元素吗?

我没有使用分块或任何其他特殊的h5py设置。如果有帮助,数据集中的元素的形状为(8, 8, 21)dtype="int32"

0 个答案:

没有答案
相关问题