将Fama-French因子中的整数索引转换为pandas中的datetime index

时间:2012-10-17 03:27:29

标签: python datetime pandas

我使用pandas.io.data从Ken French的数据库中获取Fama-French因子,但我无法弄清楚如何将整数年月日期索引(例如200105)转换为datetime索引,以便我可以利用更多pandas个功能。

以下代码会运行,但我在最后一条未注释的行中的索引尝试会删除DataFrame ff中的所有数据。我还尝试了.reindex(),但这并没有将索引更改为range。什么是pandas方式?谢谢!

import pandas as pd
from pandas.io.data import DataReader
import datetime as dt

ff = pd.DataFrame(DataReader("F-F_Research_Data_Factors", "famafrench")[0])
ff.columns = ['Mkt_rf', 'SMB', 'HML', 'rf']

start = ff.index[0]
start = dt.datetime(year=start//100, month=start%100, day=1)
end = ff.index[-1]
end = dt.datetime(year=end//100, month=end%100, day=1)
range = pd.DateRange(start, end, offset=pd.datetools.MonthEnd())
ff = pd.DataFrame(ff, index=range)
#ff.reindex(range)

2 个答案:

答案 0 :(得分:4)

reindex将现有索引重新排列到给定索引,而不是更改索引。 如果你确定长度和对齐方式匹配,你可以ff.index = range

解析每个原始索引值更安全。简单的方法是通过转换为字符串来完成此操作:

In [132]: ints
Out[132]: Int64Index([201201, 201201, 201201, ..., 203905, 203905, 203905])

In [133]: conv = lambda x: datetime.strptime(str(x), '%Y%m')

In [134]: dates = [conv(x) for x in ints]

In [135]: %timeit [conv(x) for x in ints]
1 loops, best of 3: 222 ms per loop

这有点慢,所以如果你有很多观察,你可能想在pandas中使用优化的cython函数:

In [144]: years = (ints // 100).astype(object)

In [145]: months = (ints % 100).astype(object)

In [146]: days = np.ones(len(years), dtype=object)

In [147]: import pandas.lib as lib

In [148]: %timeit Index(lib.try_parse_year_month_day(years, months, days))
100 loops, best of 3: 5.47 ms per loop

此处ints有10000个条目。

答案 1 :(得分:2)

试试这个列表理解,它对我有用:

ff = pd.DataFrame(DataReader("F-F_Research_Data_Factors", "famafrench")[0])
ff.columns = ['Mkt_rf', 'SMB', 'HML', 'rf']    
ff.index = [dt.datetime(d/100, d%100, 1) for d in ff.index]