如何加快chunk到数据帧的过程?

时间:2017-12-12 17:46:22

标签: python pandas

我尝试使用multiprocessing来比使用read_csv更快地读取csv文件。

df = pd.read_csv('review-1m.csv', chunksize=10000)

但我获得的df不是dataframe,而是类型pandas.io.parsers.TextFileReader。所以我尝试使用

df = pd.concat(tp, ignore_index=True)

df转换为dataframe。但是这个过程需要花费很多时间,因此结果与直接使用read_csv没有太大区别。有谁知道如何更快地将df转换为dataframe

1 个答案:

答案 0 :(得分:0)

pd.read_csv()可能会给你与其他任何方法相同的读取时间。如果您想要真正提高性能,则应更改存储文件的格式。

http://pandas.pydata.org/pandas-docs/stable/io.html#performance-considerations