调整Dask分区的大小是否会提高速度?

时间:2019-10-30 09:49:30

标签: python dask

我有一个2700个分区的数据帧。每个分区大约有100万行。我想使用unique()函数在一列中找到所有唯一值。如果我对此数据集执行df.repartition以减少分区数量并增加分区大小,将会提高速度吗?

1 个答案:

答案 0 :(得分:0)

答案是“也许”。

性能取决于很多因素。我建议尝试一下,看看有什么用。您可能还需要阅读我们的Understanding Performance文档页面,其中提供了有关如何理解和衡量性能的一些建议。

相关问题