有效地读取巨大的csv文件?

时间:2015-11-13 09:24:04

标签: csv pandas bigdata

我知道如何使用pandas来读取CSV扩展名的文件。读取大文件时出现内存不足错误。该文件是380万行和640万列文件。在大量人口的文件中主要有基因组数据。

我如何克服这个问题,什么是标准做法,以及如何为此选择合适的工具。我可以使用pandas处理这么大的文件,还是有另一种工具?

2 个答案:

答案 0 :(得分:1)

您可以使用Apache Spark分发csv文件https://github.com/databricks/spark-csv的内存中处理。查看分布式基因组数据处理的ADAM's方法。

答案 1 :(得分:0)

您可以使用python csv模块

with open(filename, "r") as csvfile:
    datareader = csv.reader(csvfile)
    for i in datareader:
        #process each line
        #You now only hold one row in memory, instead of your thousands of lines
相关问题