Pyspark分组和最小元素

时间:2018-02-07 20:42:58

标签: apache-spark group-by pyspark

拥有如下数据框(实际上它包含更多行):

 Time     |EventType| OrderId|Size|  Price|Direction|message_id|Second|
|34200.105|        5|       0| 100|1103400|        1|         0| 34200|

我只需要过滤特定的EventType,然后按秒进行分组,然后选择组中第一个元素的价格(表示按第二个分组时特定组中具有最小时间值的行的价格) 。需要写在pyspark。

最终数据集应如下所示:

 Open         | Second |
 113411       | 34200  |

最终的解决方案是获得聚合:开放,高,低,关闭在pyspark,例如:

 Open         | Second | High  | Low     | Close
 113411       | 34200  | 113412| 1123415 | 1113413

0 个答案:

没有答案