一次访问200个RDD中的文件pyspark

时间:2019-08-10 17:31:16

标签: python-3.x pyspark rdd

我的笔记本文件夹中有2000个文件,分别名为part-00000.xml.gzpart-00001.xml.gz,...,part-02000.xml.gz

我想使用sc.textFile一次将其中的200个作为RDD文件生成,并重复10次以获取10个RDD文件。

如何在python中编写代码来做到这一点?非常感谢。

1 个答案:

答案 0 :(得分:0)

如果您的文件很小,我建议您与wholeTextFiles一起将所有文件立即加载到RDD中。

textFilesRDD = sc.wholeTextFiles(dirPath)

否则,如果要将n个块加载到RDD中,则可以通过hadoop API完成,这已经在this答案中进行了描述。

相关问题