dplyr计算group by中的非NA值

时间:2017-05-31 17:00:08

标签: r count group-by dplyr

这是我的例子

mydf<-data.frame('col_1'=c('A','A','B','B'), 'col_2'=c(100,NA, 90,30))

我想按col_1进行分组,并计算col_2

中的非NA元素

我想用dplyr来完成。

以下是搜索SO后我尝试的内容:

mydf %>% group_by(col_1) %>% summarise_each(funs(!is.na(col_2)))
mydf %>% group_by(col_1) %>% mutate(non_na_count = length(col_2, na.rm=TRUE))
mydf %>% group_by(col_1) %>% mutate(non_na_count = count(col_2, na.rm=TRUE))

没有任何效果。有什么建议吗?

3 个答案:

答案 0 :(得分:27)

您可以使用此

mydf %>% group_by(col_1) %>% summarise(non_na_count = sum(!is.na(col_2)))

# A tibble: 2 x 2
   col_1 non_na_count
  <fctr>        <int>
1      A            1
2      B            2

答案 1 :(得分:3)

我们可以filter'col_2'中的NA元素然后执行'{1}}'col_1'

count

或使用mydf %>% filter(!is.na(col_2)) %>% count(col_1) # A tibble: 2 x 2 # col_1 n # <fctr> <int> #1 A 1 #2 B 2

data.table

library(data.table) setDT(mydf)[, .(non_na_count = sum(!is.na(col_2))), col_1]

中的aggregate
base R

或使用aggregate(cbind(col_2 = !is.na(col_2))~col_1, mydf, sum) # col_1 col_2 #1 A 1 #2 B 2

table

答案 2 :(得分:3)

library(knitr)
library(dplyr)

mydf <- data.frame("col_1" = c("A", "A", "B", "B"), 
                   "col_2" = c(100, NA, 90, 30))

mydf %>%
  group_by(col_1) %>%
  select_if(function(x) any(is.na(x))) %>%
  summarise_all(funs(sum(is.na(.)))) -> NA_mydf

kable(NA_mydf)