多个不相关列的明显计数

时间:2018-06-06 10:58:51

标签: sql apache-spark-sql spark-streaming

我有一个数据集,我希望从多个列中获取不同的数量,并在一个选择中得到结果,如何去做?

示例:

表:

|Col_A|Col_B|
|a    |c    |
|a    |d    |
|b    |c    |
|b    |d    |
|b    |c    |

我想这样(使用单个选择查询) -

|Col_A|Count_of_A|Col_B|Count_of_B|
|a    |2         |c    |3         |
|b    |3         |d    |2         |

怎么做?鉴于此,数据每次都是未知的,因此,我们不能在特定用例的情况下使用where或case语句。

理想情况下,这是一个Spark-Streaming问题,每当新数据从Kafka传入时,我都想在Spark-streaming数据帧上执行此操作。

0 个答案:

没有答案