无法使用Spark Submit

时间:2019-07-08 04:46:10

标签: python apache-spark pyspark

我生成了一个.egg文件。现在,我想在本地Windows上使用spark-submit命令运行Spark应用程序。我有Spark版本2.1.1

spark-submit --py-files  local:///C:/git_local/sparkETL/dist/sparkETL-0.1-py3.6.egg driver.py

spark-submit --py-files  local:///C:/git_local/sparkETL/dist/sparkETL-0.1-py3.6.egg driver.py

这是我正在尝试的代码,但出现错误:

File not found(c:\spark\bin\driver.py)

spark-submit已打包在.egg内时,为什么.egg试图在本地路径上查找文件?我读取的jar文件与jar类似,因此我假设就像在spark-submit文件的情况下一样,我们传递类名来运行ListView。现在,我传递的是主要文件driver.py,但它不起作用。

1 个答案:

答案 0 :(得分:1)

在这种情况下spark-submit始终需要python文件才能运行(特别是driver.py),py-file只是要附加到spark作业的库,可能在driver.py内部使用。

如果要使其正常运行,请确保driver.py存在于您触发火花提交的当前位置。或将其更改为local:/// C:/git_local/sparkETL/driver.py