我是新手。我的火花计算完成后,当前正在向亚马逊s3写入一些非常奇怪的缓慢拼花。
写一个小文件花了1.8个小时(写时有2个分区)
我用不同的大文件(更多行+更多列)(编写时有3个分区)运行了相同的火花计算
写入调用本身:df.write.mode("overwrite").parquet(key)
我尝试查看SQL计划,它们看起来没有什么不同。即使速度慢是由于文件差异造成的,我也不希望一个文件的时间小于1分钟,另一个文件的时间大于1.5小时。
对于慢速文件,我取出了实木复合地板写入文件,总计算时间从2.6小时-> 1小时开始,因此我认为它最后并没有进行延迟评估,从而导致速度变慢。
你们对要调查什么有建议吗?我尝试检查历史记录服务器的DAG和SQL选项卡,但看不到任何突出的地方。执行者人数相同。我看到的主要区别是,在编写木地板时,较大和较快的文件有3个任务,但是每个任务比较小的较慢的文件要处理更多的行和字节。