递归读取文件Spark wholeTextFiles

时间:2018-04-05 19:27:01

标签: apache-spark pyspark

我在azure数据湖中有一个目录,其中包含以下路径:

' ADL://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib'

在此目录中,有许多其他目录(50)的格式为20190404。

目录' adl://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/20180404'包含我正在使用的100个左右的xml文件。

我可以为每个子文件夹创建一个rdd工作正常,但理想情况下我只想传递顶部路径,并且让火花以递归方式查找文件。我已阅读其他SO帖子并尝试使用通配符:

pathWild = 'adl://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/*'
rdd = sc.wholeTextFiles(pathWild)
rdd.count()

但它只是冻结并且什么都不做,似乎完全破坏了内核。我在Spark 2.x上的Jupyter工作。新的火花。谢谢!

1 个答案:

答案 0 :(得分:1)

试试这个:

pathWild = 'adl://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/*/*'
相关问题