同时将多个数据帧写入S3

时间:2018-04-11 10:39:11

标签: scala apache-spark dataframe amazon-s3

我有一个要求,我必须创建多个中间数据框,我需要写入不同的目录。

--add-modules

我尝试了两个选项 -

  1. 使用Oozie fork-join创建4个单独的作业并同时生成所有4个作业,但这里的另一面是读取相同数据的所有4个作业,

  2. 创建1个作业并在转换后写入4个目录,这里的另一面是使用df1的输出数据的作业必须等到所有4个df的写入完成后才能完成。

  3. 此外,写入S3的每个职位或个人花费了IO总时间的70-75%。

    还有其他方法我可以使用或尝试吗?

0 个答案:

没有答案