Question

可能与谁有关，

我有一个非常大的数据帧 (MasterDataFrame)，其中包含约 180K 组，我想将其拆分为 5 个较小的 DataFrame 并分别处理每个较小的 DataFrame。有谁知道我可以通过什么方式将其拆分为 5 个较小的 DataFrame 而不会意外拆分/危及 MasterDataFrame 中任何组的完整性？换句话说，我希望 5 个较小的 DataFrame 没有重叠的组。

提前致谢，

克里斯托斯

这是我的数据集的样子： |======主数据集======| 姓名年龄雇主汤姆 12 沃尔玛尼克 15 迪斯尼克里斯 18 沃尔玛达伦 19 凯马特内特 43 ESPN 哈利 23 沃尔玛乌列尔 24 KMart 马特 23 迪斯尼 . . . . . . . . .

我需要能够拆分我的数据集，以便保留上面 MasterDataset 中显示的组。我的 MasterDataset 将被拆分成的较小组需要如下所示：

|======子数据集1======| 姓名年龄雇主汤姆 12 沃尔玛克里斯 18 沃尔玛哈利 23 沃尔玛达伦 19 凯马特乌列尔 24 KMart

|======SubDataset2======| 姓名年龄雇主尼克 15 迪斯尼马特 23 迪斯尼

Answer 1

我假设您的意思是“组”的行数为此，.iloc 应该是完美的。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html

df_1 = df.iloc[0:100000,:]
df_2 = df.iloc[100001:200000,:]
....

拆分 DataFrame 并维护 DataFrame 组完整性

1 个答案: