我有500GB大小的压缩数据(未压缩大小约为3TB)。我正在重新分配这些数据,因为底层数据非常偏斜,并且导致下游作业出现很多问题。 在重新分配期间,shuffle写入没有被压缩,因为我遇到集群中的磁盘空间问题。下面是屏幕截图,清楚地描述了问题(输入,随机写入列) 我已主动将以下参数设置为true,但仍然不压缩中间混洗数据
spark.shuffle.compress
spark.shuffle.spill.compress
我正在使用Spark 1.5(出于各种不可避免的原因!!) 任何建议都将不胜感激。