Question

每个块的处理速度在每个下一个块上变慢

我尝试使用Numpy.vectorize函数处理流程块，但未成功

def f(s):

    try:
        a = s
        s = s.replace('\\',' ')
        s = s.replace('=',':')
        s = s.replace('true','1')
        s = s.replace('false','0')
        s = s.replace('}"','}')
        s = s.replace('"{','{')
        s = re.findall(r'my_reg',s)[0]
        s = s[6:]
    except:
        s = 'error'

    return s

df = read_csv('my_data',chunksize=700000)
columns = my_columns
for chunk in df:
    chunk.columns = columns
    chunk['my_col'].progress_apply(f)
    chunk.to_csv('my_name',mode=a)

tqdm的进度向我显示：

100％|██████████████████████████████████████████████ ███| 700000/700000 [15:38 <00:00，745.61it / s]

100％|██████████████████████████████████████████████ ███| 700000/700000 [42:13 <00:00，276.32it / s]

100％|██████████████████████████████████████████████ ███| 700000/700000 [41:33 <00:00，280.75it / s]

100％|██████████████████████████████████████████████ ███| 700000/700000 [46:43 <00:00，249.73it / s]

100％|██████████████████████████████████████████████ ███| 700000/700000 [51:04 <00:00，216.10it / s]

和一些块之后：

100％|██████████████████████████████████████████████ ██| 700000/700000 [2:42:07 <00:00，53.75it / s]

每个块的处理速度变慢

0 个答案: