Question

我在azure数据湖中有一个目录，其中包含以下路径：

＆＃39; ADL：//home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib'

在此目录中，有许多其他目录（50）的格式为20190404。

目录＆＃39; adl：//home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/20180404'包含我正在使用的100个左右的xml文件。

我可以为每个子文件夹创建一个rdd工作正常，但理想情况下我只想传递顶部路径，并且让火花以递归方式查找文件。我已阅读其他SO帖子并尝试使用通配符：

pathWild = 'adl://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/*'
rdd = sc.wholeTextFiles(pathWild)
rdd.count()

但它只是冻结并且什么都不做，似乎完全破坏了内核。我在Spark 2.x上的Jupyter工作。新的火花。谢谢！

Answer 1

试试这个：

pathWild = 'adl://home/../psgdata/clusters/iptiqadata-prod-cluster-eus2-01/psgdata/mib/*/*'