如何在spark-2.1.1-bin-hadoop2.7的bin文件夹之外运行spark-jobs

时间:2017-05-22 11:38:21

标签: maven apache-spark apache-spark-2.0

我有一个spark-job,此spark-job的功能是连接kafka-server获取数据,然后将数据存储到cassandra tables,现在这个spark-jobspark-2.1.1-bin-hadoop2.7/bin内的服务器上运行,但每当我尝试从其他位置运行此spark-job时,它都没有运行,这个spark-job包含一些与JavaRDD相关的代码。 有没有机会,我可以通过在pom或其他内容中添加任何依赖项来从外部运行此spark-job

1 个答案:

答案 0 :(得分:0)

  

每当我尝试从其他位置运行此spark-job时,它都没有运行

spark-job是Spark应用程序的自定义启动程序脚本,可能还有一些额外的命令行选项和程序包。打开它,查看内容并解决问题。

如果很难弄清楚spark-job做了什么,并且附近没有人可以帮助你,那么可能是时候把它扔掉并换成好的'spark-submit

为什么不首先使用它?!

阅读Submitting Applications中的spark-submit