使用PySpark将数据帧写入镶木地板时如何指定分区号

时间:2016-05-08 23:01:21

标签: apache-spark pyspark

我想将一个火花数据帧写入镶木地板,而不是将其指定为partitionBy,而是指定numPartitions或每个分区的大小。在PySpark中有一种简单的方法吗?

1 个答案:

答案 0 :(得分:4)

如果你关心的是分区数,那么该方法与任何其他输出格式完全相同 - 你可以用给定数量的分区重新分区DataFrame,然后使用DataFrameWriter

df.repartition(n).write.parquet(some_path)
相关问题