将日期转换为 numpy 日期时间

时间:2021-06-04 16:48:44

标签: python numpy datetime python-datetime

我有一个日期来自 csv 文件的数据框。我需要添加一列,其中列中的日期与“6/'1/2021”日期之间存在实际天数差异。我用过

Act_Days.append((pd.to_datetime(df.date[t])- 
pd.to_datetime(df.settle_date))/np.timedelta64(1, 'D'))

这段代码有效,但这段代码需要很长时间来计算,因为数据集有大约 30K 行,我假设它是逐行计算的。无论如何是要提高速度。我听说使用 numpy 数组要快得多,然后使用 Pandas 系列,但是当我尝试将我的日期列转换为 numpy array 时,python 没有减去 6/1/2021 日期。它显示一个错误:

dates=output.date.to_numpy()
np.datetime64(dates)-np.timedelta64('2021-6-1', 'D')
--------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-9-05fdef3e68dd> in <module>
  1 dates=output.date.to_numpy()
----> 2 np.datetime64(dates)-np.timedelta64('2021-6-1', 'D')

ValueError: Could not convert object to NumPy datetime

1 个答案:

答案 0 :(得分:2)

考虑到您的方法,我会这样做(虽然不是说这是最好/最优的解决方案):

import numpy as np
import pandas as pd

# Create sample dataset with roughly 30k values
sample_dates = list(np.arange('1990-01', '2020-12', dtype='datetime64[D]'))
sample_dates = sample_dates + sample_dates + sample_dates

# Create sample dataframe
data = pd.DataFrame({
    'Dates': sample_dates
})

# Add the new column
reference_date = np.datetime64("2021-01-06", 'D')
data["Act_Days"] = data['Dates'].map(lambda date_value: int(str((np.datetime64(date_value, 'D') - reference_date)).split(' ')[0]))

# Check results
data.head()

它使用基于 NumPy 数组和 Pandas' map() 方法的操作来优化行迭代。结果如下所示:

Head results

只是为了澄清,字符串和整数解析已完成,因为 NumPy Timedelta 对象不可索引。

相关问题