使用maxRecordsPerFile

时间:2019-02-04 11:33:35

标签: apache-spark apache-spark-sql

我正在处理大约10天的数据,这些数据将基于日期并使用df写入选项maxRecordsPerFile进行分区。

在读取数据时使用了100%的群集资源,但是,在软写入开始后,将立即删除99%的内核,并且仅使用一个内核并占用1-2%的内存。

如何解决该问题,以便充分利用我的集群?

**如果我按日期执行PartitionBy时我没有记错,则仅应将特定日期的数据带入一个核心。也就是说,如果使用PartitionBy,则10天的数据应该在10个内核上运行,但是在使用maxRecordsPerFile时,所有10天的数据都只能拉到一个内核上。

0 个答案:

没有答案