取消组合SparkR数据帧

时间:2018-12-03 21:48:16

标签: r apache-spark sparkr

我有一个火花数据框:

library(SparkR); library(magrittr)

as.DataFrame(mtcars) %>%
   groupBy("am")

如何对这个数据框进行分组?在SparkR库中似乎没有任何取消组合功能!

1 个答案:

答案 0 :(得分:2)

  

SparkR库中似乎没有任何取消组合功能

这是因为groupBygroup_by中的dplyr含义不同。

SparkR::group_by / SparkR::groupBy返回的不是SparkDataFrame,而是返回与SQL中的GroupData子句相对应的GROUP BY对象。要将其转换回SparkDataFrame,您应该调用{{1}的SparkR::agg组件所对应的dplyr(或者如果您更喜欢SparkR::summarize命名法SELECT) }}查询。

汇总后,您将返回SQL,并且分组不再存在。

此外,SparkDataFrame没有等效的dplyr SparkR::groupBy。相反,我们将window functions与框架定义一起使用。

因此带走的信息是-如果您不打算进行汇总,请不要使用group_by(...) %>% mutate(...)