Spark读取从--files提交的csv文件

时间:2018-11-28 02:09:52

标签: apache-spark

我正在将Spark作业提交到纱线上的远程Spark集群,并在spark-submit --file中包含一个文件,我想将提交的文件作为数据帧读取。但是我对如何解决这个问题而不必将文件放入HDFS感到困惑:

spark-submit \
--class com.Employee \
--master yarn \
--files /User/employee.csv \
--jars SomeJar.jar

spark: SparkSession = // create the Spark Session
val df = spark.read.csv("/User/employee.csv")

2 个答案:

答案 0 :(得分:0)

spark.sparkContext.addFile("file:///your local file path ")

使用addFile添加文件,以便可以在您的工作节点上使用它。因为您想以群集模式读取本地文件。

您可能需要根据scala和所使用的Spark版本进行些微更改。

答案 1 :(得分:-1)

employee.csv在executor的工作目录中,只需按以下步骤阅读即可:

val df = spark.read.csv("employee.csv")