Spark直接将数据帧从Hive写入本地文件系统

时间:2019-05-14 02:13:17

标签: apache-spark rdd

这个问题几乎是这里要求的复制品:Writing files to local system with Spark in Cluster mode

但是我的查询有点曲折。上面的页面使用spark将HDFS中的文件直接写入本地文件系统,但是将其转换为RDD之后。

我正在寻找仅数据框可用的选项;将海量数据转换为RDD会浪费资源。

1 个答案:

答案 0 :(得分:1)

您可以使用以下语法将数据帧直接写入HDFS文件系统。

df.write.format("csv").save("path in hdfs")

有关更多详细信息,请参见spark文档:https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#generic-loadsave-functions