加载包含中断的数据集

时间:2017-03-20 17:27:18

标签: python csv line-breaks

我正在尝试加载包含中断的数据集。我试图找到一种聪明的方法来完成这项工作。我开始使用包含的代码。

如您所见,公共FTP站点上发布的文件中的数据从第11行开始,在第23818行结束,然后在23823再次开始,到45,630结束。

    import pandas as pd
    import numpy as np
    from io import BytesIO
    from zipfile import ZipFile
    from urllib.request import urlopen

    url = urlopen("http://mba.tuck.dartmouth.edu/pages/faculty/ken.french/ftp/10_Portfolios_Prior_12_2_Daily_CSV.zip")
    #Download Zipfile and create pandas DataFrame
    zipfile = ZipFile(BytesIO(url.read()))
    df = pd.read_csv(zipfile.open('10_Portfolios_Prior_12_2_Daily.CSV'), header = 0, 
                        names = ['asof_dt','1','2','3','4','5','6','7','8','9','10'], skiprows=10).dropna()
    df['asof_dt'] = pd.to_datetime(df['asof_dt'], format = "%Y%m%d")

理想情况下,我希望第一套有版本号" 1",第二套有#34; 2"等等。

非常感谢任何帮助。谢谢。

0 个答案:

没有答案