我在dbfs中有大约500个文件,其中有json响应。我想并行处理这些文件,然后将输出分类到单独的文件中。最好的方法是什么?
我尝试使用sc.parallize并没有成功。这是我的代码示例-
all_files = [file-1, file-2, .......]
processRDD = sc.parallelize(all_files)
processRDD.map(print_name).collect()
def print_name(fn)
return fn
我希望看到文件名列表吗?我没看到 有任何评论吗?