pyspark计数器字段,groupby和加1

时间:2019-05-27 21:00:52

标签: group-by count pyspark counter pyspark-sql

df有

cola, colb
1, 2
1, 3
2, 1
2, 5

df想要

cola, colb, count
1,     2,    1
1,     3,    2
2,     1,    1
2,     5,    2

需要对colA进行分组并设置count = 1,以使第一条记录的增量为1

试图使用窗口函数,但对colA中的所有记录应用相同的计数

1 个答案:

答案 0 :(得分:2)

您已经知道要使用窗口功能。也许您没有使用过rank函数。

%d

输出:

printf

如果不想在相等的行后留空格,则应使用dense_rank函数。

相关问题