SPARK:随机播放地图输出文件的压缩

时间:2017-11-11 03:56:01

标签: hadoop apache-spark

我有500GB大小的压缩数据(未压缩大小约为3TB)。我正在重新分配这些数据,因为底层数据非常偏斜,并且导致下游作业出现很多问题。 在重新分配期间,shuffle写入没有被压缩,因为我遇到集群中的磁盘空间问题。下面是屏幕截图,清楚地描述了问题(输入,随机写入列) 我已主动将以下参数设置为true,但仍然不压缩中间混洗数据

spark.shuffle.compress

spark.shuffle.spill.compress

enter image description here

我正在使用Spark 1.5(出于各种不可避免的原因!!) 任何建议都将不胜感激。

0 个答案:

没有答案