从pypark dataframe将csv文件保存到s3存储桶中

时间:2019-06-25 15:42:44

标签: dataframe amazon-s3 pyspark

我想将spark数据帧的内容保存到s3存储桶中的csv文件中:

df_country.repartition(1).write.csv('s3n://bucket/test/csv/a',sep=",",header=True,mode='overwrite')

创建名称为part-00000-fc644e84-7579-48的文件的问题。

有什么办法可以修复此文件的名称。例如test.csv?

谢谢

最佳

1 个答案:

答案 0 :(得分:0)

这是不可能的,因为作业中的每个分区都将创建自己的文件,并且必须遵循严格的约定以避免命名冲突。推荐的解决方案是在创建文件后重命名该文件。

此外,如果您知道每个路径只写入一个文件。 例如s3n://bucket/test/csv/a。那么文件的名称实际上并不重要,只需读取该唯一目录名称的所有内容即可。

来源:  1. Specifying the filename when saving a DataFrame as a CSV  2. Spark dataframe save in single file on hdfs location