Question

我有一些代码，在一个地方最终得到一个数据框列表，我真的想转换成一个大数据框。

我得到了earlier question的一些指示，它试图做类似但更复杂的事情。

这是我开始的一个例子（为了说明，这是非常简化的）：

listOfDataFrames <- vector(mode = "list", length = 100)

for (i in 1:100) {
    listOfDataFrames[[i]] <- data.frame(a=sample(letters, 500, rep=T),
                             b=rnorm(500), c=rnorm(500))
}

我目前正在使用这个：

  df <- do.call("rbind", listOfDataFrames)

Answer 1

另一个选择是使用plyr函数：

df <- ldply(listOfDataFrames, data.frame)

这比原来慢一点：

> system.time({ df <- do.call("rbind", listOfDataFrames) })
   user  system elapsed 
   0.25    0.00    0.25 
> system.time({ df2 <- ldply(listOfDataFrames, data.frame) })
   user  system elapsed 
   0.30    0.00    0.29
> identical(df, df2)
[1] TRUE

我的猜测是使用do.call("rbind", ...)将是你会发现的最快的方法，除非你可以做一些事情，比如（a）使用矩阵而不是data.frames和（b）预先分配最终的矩阵分配给它而不是增长它。

编辑1 ：

根据Hadley的评论，这是来自CRAN的rbind.fill的最新版本：

> system.time({ df3 <- rbind.fill(listOfDataFrames) })
   user  system elapsed 
   0.24    0.00    0.23 
> identical(df, df3)
[1] TRUE

这比rbind更容易，并且速度稍快（这些时间在多次运行中保持不变）。据我了解，the version of plyr on github甚至比这更快。

Answer 2

为了完整起见，我认为这个问题的答案需要更新。 “我的猜测是使用do.call("rbind", ...)将会是你发现的最快的方法......”2010年5月和之后的一段时间可能是这样，但在2011年9月左右，新功能{{1} } rbindlist包版本1.8.2中引入了一个注释，“这与data.table相同，但更快”。多快了？

do.call("rbind",l)

library(rbenchmark)
benchmark(
  do.call = do.call("rbind", listOfDataFrames),
  plyr_rbind.fill = plyr::rbind.fill(listOfDataFrames), 
  plyr_ldply = plyr::ldply(listOfDataFrames, data.frame),
  data.table_rbindlist = as.data.frame(data.table::rbindlist(listOfDataFrames)),
  replications = 100, order = "relative", 
  columns=c('test','replications', 'elapsed','relative')
  )

Answer 3

代码：

library(microbenchmark)

dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
  dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
                            c=rep(LETTERS,10),d=rep(LETTERS,10))
}


mb <- microbenchmark(
plyr::rbind.fill(dflist),
dplyr::bind_rows(dflist),
data.table::rbindlist(dflist),
plyr::ldply(dflist,data.frame),
do.call("rbind",dflist),
times=1000)

ggplot2::autoplot(mb)

会话：

R version 3.3.0 (2016-05-03)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

> packageVersion("plyr")
[1] ‘1.8.4’
> packageVersion("dplyr")
[1] ‘0.5.0’
> packageVersion("data.table")
[1] ‘1.9.6’

<强>更新：重新运行2018年1月31日。跑在同一台电脑上。新版本的软件包。为种子爱好者添加了种子。

set.seed(21)
library(microbenchmark)

dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
  dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
                            c=rep(LETTERS,10),d=rep(LETTERS,10))
}


mb <- microbenchmark(
  plyr::rbind.fill(dflist),
  dplyr::bind_rows(dflist),
  data.table::rbindlist(dflist),
  plyr::ldply(dflist,data.frame),
  do.call("rbind",dflist),
  times=1000)

ggplot2::autoplot(mb)+theme_bw()


R version 3.4.0 (2017-04-21)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

> packageVersion("plyr")
[1] ‘1.8.4’
> packageVersion("dplyr")
[1] ‘0.7.2’
> packageVersion("data.table")
[1] ‘1.10.4’

Answer 4

使用dplyr包中的bind_rows（）：

bind_rows(list_of_dataframes, .id = "column_label")

Answer 5

There is also bind_rows(x, ...) in dplyr.

> system.time({ df.Base <- do.call("rbind", listOfDataFrames) })
   user  system elapsed 
   0.08    0.00    0.07 
> 
> system.time({ df.dplyr <- as.data.frame(bind_rows(listOfDataFrames)) })
   user  system elapsed 
   0.01    0.00    0.02 
> 
> identical(df.Base, df.dplyr)
[1] TRUE

Answer 6

这是另一种方法可以做到这一点（只需将其添加到答案中，因为reduce是一种非常有效的功能工具，经常被忽略作为循环的替代。在这种特殊情况下，这些都没有明显更快比do.call）

使用基数R：

df <- Reduce(rbind, listOfDataFrames)

或者，使用tidyverse：

library(tidyverse) # or, library(dplyr); library(purrr)
df <- listOfDataFrames %>% reduce(bind_rows)

Answer 7

如何在tidyverse中完成：

"-A10080008?".match(/-A\d+8\?/)

Answer 8

想要比较一些最近答案的人的更新视觉效果（我想比较purrr和dplyr解决方案）。基本上我结合了@TheVTM和@rmf的答案。

代码：

library(microbenchmark)
library(data.table)
library(tidyverse)

dflist <- vector(length=10,mode="list")
for(i in 1:100)
{
  dflist[[i]] <- data.frame(a=runif(n=260),b=runif(n=260),
                            c=rep(LETTERS,10),d=rep(LETTERS,10))
}


mb <- microbenchmark(
  dplyr::bind_rows(dflist),
  data.table::rbindlist(dflist),
  purrr::map_df(dflist, bind_rows),
  do.call("rbind",dflist),
  times=500)

ggplot2::autoplot(mb)

会话信息：

sessionInfo()
R version 3.4.1 (2017-06-30)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1

包版本：

> packageVersion("tidyverse")
[1] ‘1.1.1’
> packageVersion("data.table")
[1] ‘1.10.0’

Answer 9

唯一缺少data.table的解决方案是标识符列，以便知道数据来自哪个数据帧。

这样的事情：

df_id <- data.table::rbindlist(listOfDataFrames, idcol = TRUE)

idcol参数添加一列（.id），用于标识列表中包含的数据框的来源。结果看起来像这样：

.id a         b           c
1   u   -0.05315128 -1.31975849 
1   b   -1.00404849 1.15257952  
1   y   1.17478229  -0.91043925 
1   q   -1.65488899 0.05846295  
1   c   -1.43730524 0.95245909  
1   b   0.56434313  0.93813197

将数据帧列表转换为一个数据帧

9 个答案: