hadoop - SPARK：随机播放地图输出文件的压缩

我有500GB大小的压缩数据（未压缩大小约为3TB）。我正在重新分配这些数据，因为底层数据非常偏斜，并且导致下游作业出现很多问题。在重新分配期间，shuffle写入没有被压缩，因为我遇到集群中的磁盘空间问题。下面是屏幕截图，清楚地描述了问题（输入，随机写入列）我已主动将以下参数设置为true，但仍然不压缩中间混洗数据

spark.shuffle.compress

spark.shuffle.spill.compress

我正在使用Spark 1.5（出于各种不可避免的原因!!）任何建议都将不胜感激。

SPARK：随机播放地图输出文件的压缩

0 个答案: