AWS Glue作业的预期运行时间

时间:2020-06-19 11:19:04

标签: amazon-web-services apache-spark pyspark apache-spark-sql aws-glue

我用AWS胶水对1mb的数据进行了作业。需要2.5秒才能完成。

Pyspark框架用于该工作。

因此,以1gb的数据完成该工作大约需要2.5 * 1000 = 2500秒。

但是,当我以1gb的数据运行作业时,只用了20秒。 这怎么可能?

1 个答案:

答案 0 :(得分:1)

默认情况下,Glue作业配置为与10个DPU一起运行,其中每个DPU具有16 GB RAM和4个vCore。因此,就您而言,即使您使用2个DPU运行该作业,您仍在利用群集。

执行时间并没有像您所计算的那样真正起作用,并且还有很多其他因素。如果您想了解有关为Glue淘选资源的更多信息,请参考this链接。

相关问题