Question

处理csv的每一行并写入新的csv的最快方法是什么？有没有办法使用最少的内存，也是最快的？请参阅以下代码。它从API请求一个csv，但是经过我评论的for循环需要很长时间。另外我认为它正在使用我服务器上的所有内存。

from pandas import *
import csv
import requests

reportResult = requests.get(api,headers=header)
csvReader = csv.reader(utf_8_encoder(reportResult.text))
reportData = []
#for loop takes a long time
for row in csvReader:
  combinedDict  = dict(zip(fields, row))
  combinedDict = cleanDict(combinedDict)
  reportData.append(combinedDict)
reportDF = DataFrame(reportData, columns = fields)
reportDF.to_csv('report.csv',sep=',',header=False,index=False)



def utf_8_encoder(unicode_csv_data):
  for line in unicode_csv_data:
    yield line.encode('utf-8')



def cleanDict(combinedDict):
  if combinedDict.get('a_id', None) is not None:
    combinedDict['a_id'] = int(
        float(combinedDict['a_id']))
    combinedDict['unique_a_id'] = ('1_a_'+
           str(combinedDict['a_id']))
  if combinedDict.get('i_id', None) is not None:
    combinedDict['i_id'] =int(
        float(combinedDict['i_id']))
    combinedDict['unique_i_id'] = ('1_i_'+
         str(combinedDict['i_id']))
 if combinedDict.get('pm', None) is not None:
    combinedDict['pm'] = "{0:.10f}".format(float(combinedDict['pm']))
  if combinedDict.get('s', None) is not None:
    combinedDict['s'] = "{0:.10f}".format(float(combinedDict['s']))
  return combinedDict

当我运行python内存分析器时，为什么for循环中的行有内存增量？实际的for循环是在内存中保存了什么东西，还是我的utf-8转换器弄乱了什么？

Line #    Mem usage    Increment   Line Contents
================================================
   162 1869.254 MiB 1205.824 MiB     for row in csvReader:
   163                                 #print row
   164 1869.254 MiB    0.000 MiB       combinedDict  = dict(zip(fields, row))

当我在utf_8编码器函数上放置“@profile”符号时，我看到上面for循环的内存消失了：

   163                               for row in csvReader:

但是现在转换器的for循环中有内存（我没有让它像上次一样运行，所以在我进行ctrl + C之前它只有56MB）：

Line #    Mem usage    Increment   Line Contents
================================================
   154  663.430 MiB    0.000 MiB   @profile
   155                             def utf_8_encoder(unicode_csv_data):
   156  722.496 MiB   59.066 MiB     for line in unicode_csv_data:
   157  722.496 MiB    0.000 MiB       yield line.encode('utf-8')

Answer 1

我发现它更快，并且没有使用太多内存，我的服务器崩溃使用数据帧来读取csv：

from cStringIO import StringIO
from pandas import *

reportText = StringIO(reportResult.text)
reportDF = read_csv(reportText, sep=',',parse_dates=False)

然后我可以使用apply处理它，例如：

def trimFloat(fl):
    if fl is not None:
      res = "{0:.10f}".format(float(fl))
      return res
    else:
      return None

floatCols  = ['a', 'b ']
for col in floatCols:
    reportDF[col] = reportDF[col].apply(trimFloat)


def removePct(reportDF):
  reportDF['c'] = reportDF['c'].apply(lambda x: x.translate(None, '%'))
  return reportDF

我怀疑之前尝试的主要问题与UTF8编码器有关

Answer 2

对于初学者来说，应该使用来自itertools的izip。见下文。

from itertools import izip

reportData = []
for row in csvReader:
    combinedDict  = dict(izip(fields, row))
    combinedDict = cleanDict(combinedDict) #cleaned dict method is probably where the bottle neck is
    reportData.append(combinedDict)

izip中的

是zip的生成器版本，它对内存的影响较小。虽然你可能不会有太大的收获，因为看起来你一次只拉一个项目。我会看看你的cleanDict（）函数。它有大量的if语句要评估，因此需要时间。最后，如果您真的要求更高的速度并且无法确定从何处获取它，请使用

进行检查

from concurrent.futures import ProcessPoolExecutor

或换句话说，看看并行处理。 https://docs.python.org/3/library/concurrent.futures.html

另请参阅python的PEP 8指南。 https://www.python.org/dev/peps/pep-0008/你的缩进是错误的。所有压痕应为4个空格。如果没有别的东西，它有助于提高可读性。

在python中读取csv的最快方法，处理每一行，并编写一个新的csv

2 个答案: