SparkSession和SparkContext有什么区别?

时间:2018-03-30 12:33:11

标签: apache-spark apache-spark-sql

我只知道版本差异,但不知道功能或其他。 即Sparksession内部有sparkcontext和conf。

2 个答案:

答案 0 :(得分:19)

在旧版本的Spark中,有不同的上下文是不同api的入口点(核心api的sparkcontext,spark-sql api的sql上下文,Dstream api的流上下文等......)这是源代码对于开发人员的困惑并且是spark团队的优化点,因此在最新版本的spark中只有一个入口点(spark会话),从中你可以获得各种其他入口点(spark上下文,流式传输)上下文等等。)

答案 1 :(得分:-3)

这是一个例子:

colName = "name of the column on wich you want to partition the query"
lowerBound = 0L
upperBound = xxxL // this is the max count in our database
numPartitions = 5 // example
spark.read.jdbc(url,tablename,colName,lowerBound,numPartitions,props).count() // this is a count but can be any query

计数将并行执行,结果将在rdd

的5个分区中
相关问题