可能与谁有关,
我有一个非常大的数据帧 (MasterDataFrame),其中包含约 180K 组,我想将其拆分为 5 个较小的 DataFrame 并分别处理每个较小的 DataFrame。有谁知道我可以通过什么方式将其拆分为 5 个较小的 DataFrame 而不会意外拆分/危及 MasterDataFrame 中任何组的完整性?换句话说,我希望 5 个较小的 DataFrame 没有重叠的组。
提前致谢,
克里斯托斯
这是我的数据集的样子: |======主数据集======| 姓名年龄雇主 汤姆 12 沃尔玛 尼克 15 迪斯尼 克里斯 18 沃尔玛 达伦 19 凯马特 内特 43 ESPN 哈利 23 沃尔玛 乌列尔 24 KMart 马特 23 迪斯尼 . . . . . . . . .
我需要能够拆分我的数据集,以便保留上面 MasterDataset 中显示的组。我的 MasterDataset 将被拆分成的较小组需要如下所示:
|======子数据集1======| 姓名年龄雇主 汤姆 12 沃尔玛 克里斯 18 沃尔玛 哈利 23 沃尔玛 达伦 19 凯马特 乌列尔 24 KMart
|======SubDataset2======| 姓名年龄雇主 尼克 15 迪斯尼 马特 23 迪斯尼
答案 0 :(得分:0)
我假设您的意思是“组”的行数 为此,.iloc 应该是完美的。
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html
df_1 = df.iloc[0:100000,:]
df_2 = df.iloc[100001:200000,:]
....