从sparklyr中的多个子文件夹中读取文件

时间:2017-10-27 00:00:53

标签: r sparklyr

在Spark 2.0中,我可以将多个文件路径组合到一个负载中(参见例如How to import multiple csv files in a single load?)。

如何使用sparklyr的spark-read-csv实现这一目标?

2 个答案:

答案 0 :(得分:3)

事实证明,sparklyr中文件路径的通配符的使用与SparkR相同,因此可以将多个文件夹合并为一个调用。

答案 1 :(得分:0)

代码示例,以读取HDFS上特定文件夹的所有子文件夹中的几个编号的CSV文件:

spark_read_csv(sc, path = "hdfs:///folder/subfolder_*/file[0-9].csv")

请注意,根据生成对象的大小,您可能需要设置参数memory = FALSE。

相关问题