我有一个日期来自 csv 文件的数据框。我需要添加一列,其中列中的日期与“6/'1/2021”日期之间存在实际天数差异。我用过
Act_Days.append((pd.to_datetime(df.date[t])-
pd.to_datetime(df.settle_date))/np.timedelta64(1, 'D'))
这段代码有效,但这段代码需要很长时间来计算,因为数据集有大约 30K 行,我假设它是逐行计算的。无论如何是要提高速度。我听说使用 numpy 数组要快得多,然后使用 Pandas 系列,但是当我尝试将我的日期列转换为 numpy array 时,python 没有减去 6/1/2021 日期。它显示一个错误:
dates=output.date.to_numpy()
np.datetime64(dates)-np.timedelta64('2021-6-1', 'D')
--------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-9-05fdef3e68dd> in <module>
1 dates=output.date.to_numpy()
----> 2 np.datetime64(dates)-np.timedelta64('2021-6-1', 'D')
ValueError: Could not convert object to NumPy datetime
答案 0 :(得分:2)
考虑到您的方法,我会这样做(虽然不是说这是最好/最优的解决方案):
import numpy as np
import pandas as pd
# Create sample dataset with roughly 30k values
sample_dates = list(np.arange('1990-01', '2020-12', dtype='datetime64[D]'))
sample_dates = sample_dates + sample_dates + sample_dates
# Create sample dataframe
data = pd.DataFrame({
'Dates': sample_dates
})
# Add the new column
reference_date = np.datetime64("2021-01-06", 'D')
data["Act_Days"] = data['Dates'].map(lambda date_value: int(str((np.datetime64(date_value, 'D') - reference_date)).split(' ')[0]))
# Check results
data.head()
它使用基于 NumPy 数组和 Pandas' map()
方法的操作来优化行迭代。结果如下所示:
只是为了澄清,字符串和整数解析已完成,因为 NumPy Timedelta 对象不可索引。