我有一个数据集,我希望从多个列中获取不同的数量,并在一个选择中得到结果,如何去做?
示例:
表:
|Col_A|Col_B|
|a |c |
|a |d |
|b |c |
|b |d |
|b |c |
我想这样(使用单个选择查询) -
|Col_A|Count_of_A|Col_B|Count_of_B|
|a |2 |c |3 |
|b |3 |d |2 |
怎么做?鉴于此,数据每次都是未知的,因此,我们不能在特定用例的情况下使用where或case语句。
理想情况下,这是一个Spark-Streaming问题,每当新数据从Kafka传入时,我都想在Spark-streaming数据帧上执行此操作。