在Apache spark中处理多个文件夹

时间:2016-06-29 09:55:46

标签: apache-spark hadoop2 hadoop-streaming

我有大约100个文件夹。每个文件夹包含5个文件。我有一个处理一个文件夹的可执行文件。可执行文件是一个黑盒子,因此无法修改。我想使用Apache spark并行处理100个文件夹,这样我就可以跨每个文件夹的地图任务。谁能给我一个想法?我遇到过类似的问题但是使用Hadoop并且回答是使用combineFileInputFormat和pathFilter。但是,正如我所说,我想使用Apache spark。有什么想法吗?

0 个答案:

没有答案