在Spark中读取多个csv文件

时间:2018-09-25 22:23:39

标签: apache-spark

我正在尝试在Spark中导入csv文件。我在Input文件夹下有几个文件,其中包含按日期(CSV_2018-02-20CSV_2018-02-26)的子文件夹,并且每个子文件夹均包含文件(FILE_2018-02-2xT[yy],其中yy每小时。 问题:我只希望从21/02-25/02读取08h00-22h00的文件(均包括在内)。我该怎么办?

val df = spark.read
...
...
.csv(s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[0][8-9]*",s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[1][0-9]*",s"s3a://${sys.env("S3n")}/T/Input/CSV_2018-02-2[1-5]/FILE_2018-02-2[1-5]T[2][0-2]*")

我尝试了上述内容以及3条单独的读取语句,但给出了错误。

是否有更好的通配符语法可以结合使用? 问题主要出在以下时间:08-22,我没有找到通配符同时使用两位数的示例:即:[08-22]也不起作用。

0 个答案:

没有答案