Databricks-并行读取和处理文件

时间:2019-04-30 18:09:45

标签: pyspark databricks

我在dbfs中有大约500个文件,其中有json响应。我想并行处理这些文件,然后将输出分类到单独的文件中。最好的方法是什么?

我尝试使用sc.parallize并没有成功。这是我的代码示例-

all_files = [file-1, file-2, .......]
processRDD = sc.parallelize(all_files)
processRDD.map(print_name).collect()

def print_name(fn)
    return fn

我希望看到文件名列表吗?我没看到 有任何评论吗?

0 个答案:

没有答案