Question

我想使用multiprocessing.Pool加载大型数据集，这是我正在使用的代码：

import os
from os import listdir
import pickle
from os.path import join
import multiprocessing as mp

db_path = db_path
the_files = listdir(db_path)
fp_dict = {}
def loader(the_hash):
        global fp_dict
        the_file = join(db_path, the_hash)
        with open(the_file, 'rb') as source:
                fp_dict[the_hash] = pickle.load(source)
        print(len(fp_dict))
def parallel(the_func, the_args):
        global fp_dict
        pool = mp.Pool(mp.cpu_count())
        pool.map(the_func, the_args)
        print(len(fp_dict))
parallel(loader, the_files)

有趣的是，代码运行时fp_dict的长度在变化。但是，只要过程终止，fp_dict的长度为零。为什么？如何使用multiprocessing.Pool修改全局变量？

Answer 1

因为您使用的是multiprocessing.Pool，所以程序在多个进程中运行。每个进程都有自己的全局变量副本，每个进程都修改自己的全局变量副本，当工作完成时，每个进程都会终止。主进程从不修改其全局变量副本。

如果要收集有关每个工作进程中发生的情况的信息，则应使用.map()方法函数，并从每个工作程序返回元数据。然后让主数据库收集元组，并根据数据整理出字典。

这是一个YouTube教程，其中介绍了如何使用multiprocessing.Pool().map()来收集辅助函数的输出。

https://www.youtube.com/watch?v=_1ZwkCY9wxk

这是我为StackOverflow编写的另一个答案，展示了如何传递元组，以便worker函数可以采用多个参数。以及显示如何从worker函数返回具有多个值的元组。它甚至可以根据返回的值创建字典。

https://stackoverflow.com/a/11025090/166949

为什么multiprocessing.Pool无法更改全局变量？

1 个答案: