Question

我正在使用spark为大约300PB的大型数据集寻找媒介。最佳的最佳方式是什么？（顺便说一句，结果不必严格准确）

Answer 1

您可以通过两种方式解决此问题： 1次使用 meanApprox （长超时，双置信）功能，该函数返回超时和置信度内的近似平均值。

2-您可以使用样本（双倍分数，布尔值 withReplacement ，长种子，SparkPlan > child ）方法来达到目的，例如：

sampledRDD = rdd.sample(False, sample, seed)
approxMean = sampledRDD.mean()

希望您能解决您的问题。有关更多详细信息，请访问https://spark.apache.org/docs以获取更多信息。