拆分 DataFrame 并维护 DataFrame 组完整性

时间:2021-05-31 16:48:59

标签: python group-by

可能与谁有关,

我有一个非常大的数据帧 (MasterDataFrame),其中包含约 180K 组,我想将其拆分为 5 个较小的 DataFrame 并分别处理每个较小的 DataFrame。有谁知道我可以通过什么方式将其拆分为 5 个较小的 DataFrame 而不会意外拆分/危及 MasterDataFrame 中任何组的完整性?换句话说,我希望 5 个较小的 DataFrame 没有重叠的组。

提前致谢,

克里斯托斯

这是我的数据集的样子: |======主数据集======| 姓名年龄雇主 汤姆 12 沃尔玛 尼克 15 迪斯尼 克里斯 18 沃尔玛 达伦 19 凯马特 内特 43 ESPN 哈利 23 沃尔玛 乌列尔 24 KMart 马特 23 迪斯尼 . . . . . . . . .

我需要能够拆分我的数据集,以便保留上面 MasterDataset 中显示的组。我的 MasterDataset 将被拆分成的较小组需要如下所示:

|======子数据集1======| 姓名年龄雇主 汤姆 12 沃尔玛 克里斯 18 沃尔玛 哈利 23 沃尔玛 达伦 19 凯马特 乌列尔 24 KMart

|======SubDataset2======| 姓名年龄雇主 尼克 15 迪斯尼 马特 23 迪斯尼

1 个答案:

答案 0 :(得分:0)

我假设您的意思是“组”的行数 为此,.iloc 应该是完美的。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html

df_1 = df.iloc[0:100000,:]
df_2 = df.iloc[100001:200000,:]
....
相关问题