pyspark - Databricks-并行读取和处理文件 - Thinbug

Databricks-并行读取和处理文件

时间：2019-04-30 18:09:45

标签： pyspark databricks

我在dbfs中有大约500个文件，其中有json响应。我想并行处理这些文件，然后将输出分类到单独的文件中。最好的方法是什么？

我尝试使用sc.parallize并没有成功。这是我的代码示例-

all_files = [file-1, file-2, .......]
processRDD = sc.parallelize(all_files)
processRDD.map(print_name).collect()

def print_name(fn)
    return fn

我希望看到文件名列表吗？我没看到有任何评论吗？

0 个答案:

没有答案