apache-spark - 奇怪的实木复合地板写瓶颈

我是新手。我的火花计算完成后，当前正在向亚马逊s3写入一些非常奇怪的缓慢拼花。

写一个小文件花了1.8个小时（写时有2个分区）

我用不同的大文件（更多行+更多列）（编写时有3个分区）运行了相同的火花计算

写入调用本身：df.write.mode("overwrite").parquet(key)

我尝试查看SQL计划，它们看起来没有什么不同。即使速度慢是由于文件差异造成的，我也不希望一个文件的时间小于1分钟，另一个文件的时间大于1.5小时。

对于慢速文件，我取出了实木复合地板写入文件，总计算时间从2.6小时-> 1小时开始，因此我认为它最后并没有进行延迟评估，从而导致速度变慢。

你们对要调查什么有建议吗？我尝试检查历史记录服务器的DAG和SQL选项卡，但看不到任何突出的地方。执行者人数相同。我看到的主要区别是，在编写木地板时，较大和较快的文件有3个任务，但是每个任务比较小的较慢的文件要处理更多的行和字节。