说我想在S3存储桶中将.csv文件作为数据帧加载
我知道有一个密码
spark.read.format('csv').load("s3://path/file.csv")
但是我想知道幕后发生了什么?或究竟是什么使这种情况发生?采访中有人问我这个问题,无法回答。
谢谢
答案 0 :(得分:0)
不知道面试官的期望,但是我的回答在这里。
它将创建一个BaseRelation实现HadoopFsRelation的DataFrame,因为您正试图访问文件(如果使用数据库,您将使用JDBCRelation)。
HadoopFsRelation将使用CsvFileFormat,而最终使用CSVDataSource,这将使您能够读取CSV文件以处理其数据。