Question

我有一个传入的数据框，格式如下（timestamp，data1，data2）：

2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value2"
2015-09-25T13:00:00.000Z "test" "value3"

我需要＆＃34;回顾＆＃34;基于窗口大小并在第三列上执行聚合，因此如果窗口大小为1小时，则输出应为：

2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value1, value2"
2015-09-25T13:00:00.000Z "test" "value2, value3"

2小时窗口：

2015-09-25T11:00:00.000Z "test" "value1"
2015-09-25T12:00:00.000Z "test" "value1, value2"
2015-09-25T13:00:00.000Z "test" "value1, value2, value3"

我正在考虑编写自定义聚合函数，它可以将其与Spark SQL Windowed操作一起分组和使用，但Spark 1.6不支持它。那么也许有人正在研究这样的任务，可以提供帮助吗？