处理大型数据集的最佳方法

时间:2020-07-15 06:30:20

标签: apache-spark quantile

我正在使用spark为大约300PB的大型数据集寻找媒介。最佳的最佳方式是什么? (顺便说一句,结果不必严格准确)

1 个答案:

答案 0 :(得分:0)

您可以通过两种方式解决此问题: 1次使用 meanApprox (长超时,双置信)功能,该函数返回超时和置信度内的近似平均值。

2-您可以使用样本(双倍分数,布尔值 withReplacement ,长种子,SparkPlan > child )方法来达到目的,例如:

sampledRDD = rdd.sample(False, sample, seed)
approxMean = sampledRDD.mean()

希望您能解决您的问题。 有关更多详细信息,请访问https://spark.apache.org/docs以获取更多信息。

相关问题