数据集缓存大小和RDD缓存大小有很大差异

时间:2018-08-27 03:54:21

标签: java apache-spark

首先,我使用SparkSQL读取200万行的表,然后将其缓存(数据集)。 其次,做

JavaRDD javaRDD = dataset.javaRDD().cache();
第三,使用javaRDD创建一个DataFrame并将其缓存; 最后,采取行动; Spark-UI中的存储标签如下图所示;为什么相同的数据在缓存大小上有很大的不同? enter image description here

0 个答案:

没有答案