Question

我试图比较Spark SQL 1.6和1.5版的性能。在一个简单的例子中，Spark 1.6比Spark 1.5快得多。但是，在一个更复杂的查询中 - 在我的例子中是一个带有分组集的聚合查询，Spark SQL 1.6版比Spark SQL 1.5版要慢得多。有人注意到同样的问题吗？甚至更好地为这种查询提供解决方案？

这是我的代码

case class Toto(
                 a: String = f"${(math.random*1e6).toLong}%06.0f",
                 b: String = f"${(math.random*1e6).toLong}%06.0f",
                 c: String = f"${(math.random*1e6).toLong}%06.0f",
                 n: Int = (math.random*1e3).toInt,
                 m: Double = (math.random*1e3))

val data = sc.parallelize(1 to 1e6.toInt).map(i => Toto())
val df: org.apache.spark.sql.DataFrame = sqlContext.createDataFrame( data )

df.registerTempTable( "toto" )
val sqlSelect = "SELECT a, b, COUNT(1) AS k1, COUNT(DISTINCT n) AS k2, SUM(m) AS k3"
val sqlGroupBy = "FROM toto GROUP BY a, b GROUPING SETS ((a,b),(a),(b))"
val sqlText = s"$sqlSelect $sqlGroupBy"

val rs1 = sqlContext.sql( sqlText )
rs1.saveAsParquetFile( "rs1" )

以下是2个屏幕截图Spark 1.5.2和Spark 1.6.0，其中--driver-memory = 1G。可以在DAG查看Spark 1.6.0上的DAG。

Answer 1

感谢HermanvanHövell对spark dev社区的回复。为了与其他成员分享，我在此分享他的回应。

1.6计划单个不同的聚合，如多个不同的聚合;这固有地导致一些开销，但在高基数的情况下更稳定。您可以通过将spark.sql.specializeSingleDistinctAggPlanning选项设置为false来恢复旧行为。另见：https://github.com/apache/spark/blob/branch-1.6/sql/core/src/main/scala/org/apache/spark/sql/SQLConf.scala#L452-L462

实际上为了恢复设置值应为“true”。

Spark SQL性能：版本1.6 vs 1.5版

1 个答案: