在spark-submit命令行上设置hadoop配置值

时间:2017-03-14 21:07:34

标签: apache-spark spark-submit

我们希望通过aws设置代码中的SparkContext参数:

sc.hadoopConfiguration.set("fs.s3a.access.key", vault.user)
sc.hadoopConfiguration.set("fs.s3a.secret.key", vault.key)

但是我们有一个自定义Spark启动器框架,它需要通过--conf命令行的spark-submit参数完成所有自定义Spark配置。

有没有办法“通知”SparkContext将--conf值设置为hadoopConfiguration而不是普通SparkConf

寻找一些东西
spark-submit --conf hadoop.fs.s3a.access.key $vault.user --conf hadoop.fs.s3a.access.key $vault.key

spark-submit --conf hadoopConfiguration.fs.s3a.access.key $vault.user --conf hadoopConfiguration.fs.s3a.access.key $vault.key

1 个答案:

答案 0 :(得分:17)

您需要在命令行(或spark.hadoop.对象)中使用SparkConf为Hadoop配置添加前缀。例如:

spark.hadoop.fs.s3a.access.key=value