在给定时间间隔内的聚合函数spark

时间:2017-02-28 16:01:41

标签: scala apache-spark apache-spark-sql

请,我需要你的帮助,我需要根据5分钟的时间间隔汇总数据集并根据平均功能汇总,在这里你可以找到输入和预期输出。,你的帮助将受到高度赞赏,第一列是一个时间戳列,使用的是scala语言enter image description here

1 个答案:

答案 0 :(得分:2)

通常,您可以从每次提取5分钟的时间段(例如,将时间戳记作为数字,除以5分钟并将结果放在一起)。

然后你只需:

df.groupBy("bucket").avg($"value")