Question

dask API说，map_partition可用于“在每个DataFrame分区上应用Python函数”。根据这个描述并根据“map”的通常行为，我希望map_partitions的返回值是（类似的）一个长度等于分区数的列表。列表的每个元素都应该是函数调用的返回值之一。

但是，关于以下代码，我不确定，返回值取决于：

#generate example dataframe
pdf = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))
ddf = dd.from_pandas(pdf, npartitions=3)

#define helper function for map. VAL is the return value
VAL = pd.Series({'A': 1})
#VAL = pd.DataFrame({'A': [1]}) #other return values used in this example
#VAL = None
#VAL = 1
def helper(x):
    print('function called\n')
    return VAL

#check result
out = ddf.map_partitions(helper).compute()
print(len(out))

VAL = pd.Series({'A': 1})导致4个函数调用（可能一个用于推断dtype，3个用于分区）和一个输出len == 3且类型为pd.Series。
pd.DataFrame({'A': [1]})会生成相同的数字，但结果类型为pd.DataFrame。
VAL = None会导致TypeError ...为什么？无法使用map_partitions来执行某些内容而不是返回某些内容？
VAL = 1只会产生2个函数调用。 map_partitions的结果是整数1。

因此，我想问一些问题：

map_partitions的返回值是如何确定的？
除了分区数量之外还有什么影响函数调用的数量/每个分区要调用一次函数的标准是什么？
函数的返回值应该是什么，只有“做”某事，即程序？
如何设计一个返回任意对象的函数？

Answer 1

Dask DataFrame.map_partitions函数根据映射函数的输出类型返回一个新的Dask Dataframe或Series。有关详细说明，请参阅API documentation。

如何确定map_partitions的返回值？

请参阅上面提到的API文档。
除了分区数量之外，还有什么影响函数调用的数量/每个分区要调用一次函数的标准是什么？

您确定我们立即调用它一次以猜测输出的dtypes /列。您可以直接指定meta=关键字来避免这种情况。除此之外，每个分区调用一次函数。
函数的返回值应该是什么，只有＆＃34;＆＃34;什么东西，即程序？

您始终可以返回空数据框。您可能还需要考虑将数据帧转换为dask.delayed个对象序列，这些对象通常更常用于临时计算。
如何设计一个返回任意对象的函数？

如果您的功能没有返回系列/数据框，那么我建议您使用dask.delayed方法将数据框转换为一系列DataFrame.to_delayed个对象。

map_partitions在做什么？

1 个答案: