通过Oozie运行Spark Jobs

时间:2015-03-26 20:04:56

标签: hadoop apache-spark oozie

是否可以运行Spark Jobs,例如通过Oozie的Spark-sql工作?

过去我们使用Oozie和Hadoop。由于我们现在在YARN之上使用Spark-Sql,因此正在寻找一种使用Oozie来安排工作的方法。

感谢。

2 个答案:

答案 0 :(得分:4)

是的可能......程序也一样,你必须为Oozia提供一个包含coordinator.xmlworkflow.xml的目录结构和一个包含你的Jar文件的lib目录。
但请记住Oozie使用java -cp命令开始工作,而不是spark-submit,所以如果你必须用Oozie运行它,这是一个技巧。
在后台运行带有spark-submit的jar。 在进程列表中查找该进程。它将在java -cp命令下运行,但有一些额外的Jars,由spark-submit添加。在CLASS_PATH中添加这些Jars。就是这样。现在,您可以通过Oozie运行Spark应用程序。

1.  nohup spark-submit --class package.to.MainClass /path/to/App.jar &
2.  ps aux | grep '/path/to/App.jar'

已编辑:您还可以使用最新的Oozie,其中也有Spark Action

答案 1 :(得分:0)

要运行Oozie的Spark SQL,您需要使用Oozie Spark Action。 您可以在您的发行版中找到 oozie .gz。通常在cloudera中,您可以在以下路径找到此oozie示例目录。 ] $ locate oozie .gz /usr/share/doc/oozie-4.1.0+cdh5.7.0+267/oozie-examples.tar.gz

Spark SQL需要hive-site.xml文件以供执行,您需要在workflow.xml中提供

< spark-opts> - file /hive-site.xml< /火花OPTS>