我的笔记本文件夹中有2000个文件,分别名为part-00000.xml.gz
,part-00001.xml.gz
,...,part-02000.xml.gz
我想使用sc.textFile
一次将其中的200个作为RDD文件生成,并重复10次以获取10个RDD文件。
如何在python中编写代码来做到这一点?非常感谢。
答案 0 :(得分:0)
如果您的文件很小,我建议您与wholeTextFiles
一起将所有文件立即加载到RDD中。
textFilesRDD = sc.wholeTextFiles(dirPath)
否则,如果要将n个块加载到RDD中,则可以通过hadoop API完成,这已经在this答案中进行了描述。