Question

说我想在S3存储桶中将.csv文件作为数据帧加载

我知道有一个密码

spark.read.format('csv').load("s3://path/file.csv")

但是我想知道幕后发生了什么？或究竟是什么使这种情况发生？采访中有人问我这个问题，无法回答。

谢谢

Answer 1

不知道面试官的期望，但是我的回答在这里。

它将创建一个BaseRelation实现HadoopFsRelation的DataFrame，因为您正试图访问文件（如果使用数据库，您将使用JDBCRelation）。

HadoopFsRelation将使用CsvFileFormat，而最终使用CSVDataSource，这将使您能够读取CSV文件以处理其数据。