为什么sortByKey在火花中如此缓慢?他们有任何替代方案吗?

时间:2016-03-17 16:06:48

标签: scala hadoop apache-spark bigdata

每当我在程序中使用 sortByKey 时,它就会挂起!它们是一种在Spark中对RDD进行排序的更有效方法吗?那么 RangePartitioner 呢?他们是使用 RangePartitioner 排序的方法吗?我的RDD是[(Integer, SomeType)]类型。排序后,我使用 RangePartitioner 对数据进行分区,然后使用 mapPartitions 进一步处理。在那种情况下,对RDD进行排序的最优雅方式是什么?基本上我希望在我开始使用 mapPartitions 之前对RDD进行排序。

1 个答案:

答案 0 :(得分:1)

Spark不用于排序。 如果它挂起,则表示您正在尝试对非常大的数据集进行排序。

问问自己,你将如何处理数百万个排序结果集? 请改用takeOrdered。

相关问题