Spark应用程序如何访问Amazon S3存储桶中的文件/目录?

时间:2019-12-15 13:01:25

标签: apache-spark amazon-s3 amazon-ec2 pyspark amazon-emr

说我想在S3存储桶中将.csv文件作为数据帧加载

我知道有一个密码

spark.read.format('csv').load("s3://path/file.csv")

但是我想知道幕后发生了什么?或究竟是什么使这种情况发生?采访中有人问我这个问题,无法回答。

谢谢

1 个答案:

答案 0 :(得分:0)

不知道面试官的期望,但是我的回答在这里。

它将创建一个BaseRelation实现HadoopFsRelation的DataFrame,因为您正试图访问文件(如果使用数据库,您将使用JDBCRelation)。

HadoopFsRelation将使用CsvFileFormat,而最终使用CSVDataSource,这将使您能够读取CSV文件以处理其数据。

相关问题