Question

我有一个大型数据集，我试图进行进一步分析。以下是数据框的相关部分。

Loan   Closing Balance Date
1      175,000         2010-10-31
1      150,000         2010-11-30
1      125,000         2010-12-31
2      275,000         2010-10-31
2      250,000         2010-11-30
2      225,000         2010-12-31
3      375,000         2010-10-31
3      350,000         2010-11-30
3      320,000         2010-12-31

我想创建一个名为Opening Balance的新列，它基本上是上个月月末的结算余额，因此对于第二行，期初余额将等于175,000，即结算第一行的余额。

由于数据集从2010年10月31日开始，我无法查找2010-09-30的余额，因此对于任何日期为2010-10-31的行，我想制作该观察的期初余额等于期末余额。

这里应该是什么样子：

Loan   Closing Balance Date         Opening Balance
1      175,000         2010-10-31   175,000
1      150,000         2010-11-30   175,000
1      125,000         2010-12-31   150,000
2      275,000         2010-10-31   275,000
2      250,000         2010-11-30   275,000
2      225,000         2010-12-31   250,000
3      375,000         2010-10-31   375,000
3      350,000         2010-11-30   375,000
3      320,000         2010-12-31   350,000

在Excel中我通常会使用一个eomonth函数进行复合索引匹配来执行此操作，但不太确定如何在Python中执行此操作（仍然是非常新的）。

任何帮助表示感谢。

我尝试过Santhosh建议的方法，我得到以下信息：

谢谢我尝试了您的解决方案并最终获得以下内容：

    Closing Balance_x     Date_x  Closing Balance_y
0              175000 2010-09-30           150000.0
1              175000 2010-09-30           250000.0
2              175000 2010-09-30           350000.0
3              150000 2010-10-31           125000.0
4              150000 2010-10-31           225000.0
5              150000 2010-10-31           320000.0
6              125000 2010-11-30                NaN
7              275000 2010-09-30           150000.0
8              275000 2010-09-30           250000.0
9              275000 2010-09-30           350000.0
10             250000 2010-10-31           125000.0
11             250000 2010-10-31           225000.0
12             250000 2010-10-31           320000.0
13             225000 2010-11-30                NaN
14             375000 2010-09-30           150000.0
15             375000 2010-09-30           250000.0
16             375000 2010-09-30           350000.0
17             350000 2010-10-31           125000.0
18             350000 2010-10-31           225000.0
19             350000 2010-10-31           320000.0
20             320000 2010-11-30                NaN

然后我修改了该代码以根据贷款ID和日期/ pDate进行合并：

final_df = pd.merge(df, df, how="left", left_on=['Date'], right_on=['pDate'])

      Loan  Closing Balance_x     Date_x           Opening Balance
    0    1             175000 2010-09-30           150000.0
    1    1             150000 2010-10-31           125000.0
    2    1             125000 2010-11-30                NaN
    3    2             275000 2010-09-30           250000.0
    4    2             250000 2010-10-31           225000.0
    5    2             225000 2010-11-30                NaN
    6    3             375000 2010-09-30           350000.0
    7    3             350000 2010-10-31           320000.0
    8    3             320000 2010-11-30                NaN

现在在这种情况下，我不确定为什么每次11月的观察都会得到NaN。 11月贷款1的期初余额应为150,000。 10月期初余额应为175,000。 9月期初余额应该默认为与9月期初余额相同，因为我没有8月期末余额可供参考。

更新

认为我解决了这个问题，我将合并代码更改为：

final_df = pd.merge(df, df, how="left", left_on=['Loan','pDate'], right_on=['Loan','Date'])

这仍然让我获得9月观察的NaN，但这很好，因为我可以手动替换这些值。

Answer 1

我建议你有另一个专栏说明日期 - （1个月），然后将它们加入日期字段以获得期初余额。

df["cmonth"] = df.Date.apply(lambda x: x.year*100+x.month)
df["pDate"] = df.Date.apply(lambda x: (x - pd.DateOffset(months=1)))
df["pmonth"] = df.pDate.apply(lambda x: x.year*100+x.month)
final_df = pd.merge(df, df, how="left", left_on="cmonth", right_on="pmonth")
print(final_df[["close_x", "Date_x", "close_y"]])
#close_y is your opening balance

Python中的索引匹配等价物

1 个答案: