Question

我正在开发一个 python 模块，它允许用户从镶木地板文件中读取超过 100 万行 x 372 列的数据到内存中，供人们进行这样的分析：

data = pandas.read_parquet(url1 + str(year) + url2, columns=columns, engine='fastparquet')

我试图通过转换一些数据类型来主动减少数据大小，例如对象到类别，int64 到 int32 等，通过执行以下操作：

for column in test.select_dtypes(include=['object']):
    
    if len(test[column].unique()) < 100:
        test[column] = test[column].astype('category')
        
for column in test.select_dtypes(include=['int64']):
    
    test[column] = test[column].astype('int32')

for column in test.select_dtypes(include=['float64']):
    
    test[column] = test[column].astype('float32')

这有效并将数据大小减少了约 50%，但速度很慢（完整转换需要约 3 分钟，而进行初始数据导入只需 1 分钟）。有没有另一种方法可以让这个运行得更快？ TIA。

Answer 1

不要使用 Pandas 方法进行转换，而是尝试使用 numpy 数组，这会更快。例如：

test[column] = np.array(test[column], dtype=np.float32)

从 numpy 文档中检查不同的数据类型： https://numpy.org/doc/stable/reference/arrays.dtypes.html

如何加快熊猫数据框列类型的转换？

1 个答案: