Spark Dataframe写入(Parquet格式)操作运行缓慢

时间:2018-09-26 07:52:00

标签: apache-spark

我正在尝试读取具有110 GB数据的oracle表并以PARQUET格式写入。 Spark 1.6版本。数据由PARTITION_DATE进行了分区。此作业的运行速度非常慢,几个小时后失败。

以下是我给的内存参数:

SPRINTER_X_DRIVER_MEMORY 24
SPRINTER_X_EXECUTOR_CORES 8
SPRINTER_X_EXECUTOR_INSTANCES 8
SPRINTER_X_EXECUTOR_MEMORY 16
sparkParallelDegree 32

========================
Stage Id||Description            ||Duration || Tasks:Succeeded/Total
4       ||parquet at DF.scala:51 ||30 min   || 0/32
========================

Stuck line: DF.scala:line 51 => df.write.mode(SaveMode.Overwrite).parquet(tbpath)

请告知。

0 个答案:

没有答案