Question

我有一个数据表dt，看起来像

   location year value
       NYC 2026     1
       NYC 2026     2
       NYC 2026     3
       NYC 2026     4
       NYC 2026     5
        LA 2026     6
        LA 2026     7
        LA 2026     8
        LA 2026     9
        LA 2026    10

我想按city和year对它们进行分组，并在其中找到第二小的元素每个组的value列中，所需结果如下：

   location year value
        NYC  2026     2
         LA  2026     7

dt %>% grou_by(location, year) %>% nth(value, 2)

不起作用。任何帮助表示赞赏。

上面的数据表可以通过以下方式创建：

dt <- structure(list(location = c("NYC", "NYC", "NYC","NYC", "NYC", 
                                   "LA", "LA", "LA", "LA", "LA"), 
                 year = c(2026, 2026, 2026, 2026, 2026,
                          2026, 2026, 2026, 2026, 2026),
                 value = c(1, 2, 3, 4, 5,
                           6, 7, 8, 9, 10)),
                 class = "data.table", 
                 row.names = c(NA, -10L))

Answer 1

一种ParentName Department From To FromAmount ToAmount XYZ 101 Name1 Name2 -2 2 ABC 102 Name2 Name4 -200 200 ABC 102 Name3 Name4 -200 200 ABC 102 Name9 Name4 -200 200 PQR 103 Name5 Name3 -250 250 PQR 103 Name5 Name6 -250 250 BBB 104 Name7 Name10 -50 75 BBB 104 Name8 Name11 -100 75可能是：

dplyr

此处按“位置”列进行分组，并根据“值”列排列值，然后保留第二个元素。

df %>%
 group_by(location) %>%
 arrange(value) %>%
 slice(2)

或者如果“值”列中的值可以重复，则可以执行以下操作：

  location  year value
  <chr>    <int> <int>
1 LA        2026     7
2 NYC       2026     2

或者使用df %>% group_by(location) %>% distinct(value, .keep_all = TRUE) %>% arrange(value) %>% slice(2)，而不是filter()：

slice()

同样的考虑也可能重复：

df %>%
 group_by(location) %>%
 arrange(value) %>%
 filter(row_number() == 2)

或使用df %>% group_by(location) %>% distinct(value, .keep_all = TRUE) %>% arrange(value) %>% filter(row_number() == 2)和filter()：

dense_rank()

同样的考虑也可能重复：

df %>%
 group_by(location) %>%
 filter(dense_rank(value) == 2)

Answer 2

使用summarize与group_by一起使用：

> dt %>% group_by(location, year) %>% arrange(value) %>%  summarize(value = nth(value, 2))
# A tibble: 2 x 3
# Groups:   location [2]
  location  year value
  <chr>    <dbl> <dbl>
1 LA        2026     7
2 NYC       2026     2

Answer 3

由于只需要2nd元素，所以部分排序不应该成为问题。我不知道dplyr或data.table是否支持它，但是它具有基本R排序（带有受限制的选项），例如。

with(dt, lapply(split(dt, interaction(location, year)), 
  function(x) sort.int(x$value, partial=2)))

我怀疑即使优化后对它们进行完全排序，它也将比dplyr或data.table更快，但是也许值得关注效率。

哦，您还可以先进行排序，然后进行分组，然后简单地从每个分组中选择第n个值，为每个组保存多个排序例程。

R中每组第k_th个最小元素

3 个答案: