寻找一种计算spark / scala中数据帧频率分布的方法

时间:2016-07-01 17:20:52

标签: scala apache-spark

我想使用spark和scala计算数据帧的频率分布(返回每列中最常见的元素及其出现的次数)。我已经尝试过使用DataFrameStatFunctions库但是在我仅为数字类型列过滤数据帧后,我无法应用库中的任何函数。这是创建UDF的最佳方法吗?

1 个答案:

答案 0 :(得分:9)

你可以用 val newDF = df.groupBy("columnName").count() newDF.show()

它将显示唯一条目的频率计数。