奇怪的实木复合地板写瓶颈

时间:2020-06-19 22:26:26

标签: apache-spark pyspark parquet

我是新手。我的火花计算完成后,当前正在向亚马逊s3写入一些非常奇怪的缓慢拼花。

写一个小文件花了1.8个小时(写时有2个分区)

enter image description here

我用不同的大文件(更多行+更多列)(编写时有3个分区)运行了相同的火花计算

enter image description here

写入调用本身:df.write.mode("overwrite").parquet(key)

我尝试查看SQL计划,它们看起来没有什么不同。即使速度慢是由于文件差异造成的,我也不希望一个文件的时间小于1分钟,另一个文件的时间大于1.5小时。

对于慢速文件,我取出了实木复合地板写入文件,总计算时间从2.6小时-> 1小时开始,因此我认为它最后并没有进行延迟评估,从而导致速度变慢。

你们对要调查什么有建议吗?我尝试检查历史记录服务器的DAG和SQL选项卡,但看不到任何突出的地方。执行者人数相同。我看到的主要区别是,在编写木地板时,较大和较快的文件有3个任务,但是每个任务比较小的较慢的文件要处理更多的行和字节。

0 个答案:

没有答案