python脚本中spark-submit和SparkSession之间的区别?

时间:2017-06-01 15:44:21

标签: apache-spark pyspark

使用spark-submit提交python脚本与使用python可执行文件(以及导入SparkSession)运行.py文件,是否存在优点/缺点,或者可能是不同的用例?,

from pyspark.sql import SparkSession
spk = SparkSession.builder.master(master).getOrCreate()

基本上,通过python运行脚本是否有任何差异,而不是spark-submit。

1 个答案:

答案 0 :(得分:3)

spark-submit主要是一种便利方法。它允许您在提交时设置所有所需的配置,环境变量和其他选项。

它还允许您设置JVM选项,这些选项无法在正在运行的虚拟机上设置。由于在创建Spark配置后初始化JVM,因此无法从正在运行的Python进程执行相同操作。