使用spark / scala计算数据点的平均值和平均值

时间:2020-03-17 12:30:07

标签: scala apache-spark-sql

我有一个带距离列的数据框:

+++++++++++++++++++
|     distance     |
+++++++++++++++++++
|     12.25        |
|     14.2         |
|     1.22         |
|     7.158        |
++++++++++++++++++++

我想将数据分为测试数据和训练数据。 我使用了这段代码

val splits = df_f.cache().randomSplit(Array(0.6, 0.4), seed = 11L)
val training = splits(0)
val test = splits(1)

并计算训练数据和变换测试数据的平均值和标准偏差。

如何使用scala计算训练数据的平均值和标准偏差并将其应用于测试数据

0 个答案:

没有答案