火花提交失败,而没有连接到互联网

时间:2017-10-12 12:21:36

标签: apache-spark spark-submit

当我尝试使用参数--packages定义提交spark-submit的spark作业时,我希望spark首先搜索本地repo以获取工件,如果它们存在则使用它们。

我观察到每次spark尝试从互联网上获取工件时,如果没有连接失败。

我可以强制火花只使用本地缓存吗?

示例:

spark-submit --master yarn --deploy-mode cluster --packages org.apache.spark:spark-streaming-kafka-0-10_2.11:2.1.0,org.apache.spark:spark-streaming_2.11:2.1.1,org.apache.spark:spark-sql_2.11:2.1.1 my-assembly-1.1.0.jar /usr/local/path/config.properties

1 个答案:

答案 0 :(得分:0)

您可以将所需的包添加到位于spark-defaults.conf的{​​{1}}文件中。它将在本地-m2中查找包裹。如果包不在本地-m2中,它将尝试从maven-central下载它们。 例如

$SPARK_HOME/conf