Question

我希望基于在文本片段上训练RNN来生成文本序列（我之前在articles like this中完成过）。

一步是获取文本片段并将其分解为子序列以训练模型：

c("E","X","A","M","P","L","E")

会变成

c("E")
c("E","X")
c("E","X","A")
...

我目前的方法是在每个单词上使用地图：

require(tidyverse)

data <- data_frame(id = c(1,2),word = list(c("E","X","A","M","P","L","E"), c("R","S","T","U","D","I","O")))

result <- data %>%
  pmap(function(id,word){
    subs <- map(1:length(word),function(i) word[1:i])
    data_frame(id = id, sub = subs)
  }) %>%
  bind_rows()

但是对于大型数据集，这是非常慢。有没有快速的方法来生成所有这些部分序列？

Answer 1

您正在寻找Reduce

的accumulate=TRUE

Reduce(c,a,accumulate = T)
[[1]]
[1] "E"

[[2]]
[1] "E" "X"

[[3]]
[1] "E" "X" "A"

[[4]]
[1] "E" "X" "A" "M"

[[5]]
[1] "E" "X" "A" "M" "P"

[[6]]
[1] "E" "X" "A" "M" "P" "L"

[[7]]
[1] "E" "X" "A" "M" "P" "L" "E"

因此，要将其包含在您的数据中，您可以执行以下操作：

data%>%
  group_by(id)%>%
  mutate(word=list(Reduce(c,unlist(word),accumulate = T)))%>%
  unnest()

在purrr中使用函数accumulate

执行相同的操作

purrr::accumulate(a,c)

虽然这是purrr中的一个函数，但它基本上是调用Reduce函数。即

purrr::accumulate
function (.x, .f, ..., .init) 
{
    .f <- as_mapper(.f, ...)
    f <- function(x, y) {
        .f(x, y, ...)
    }
    Reduce(f, .x, init = .init, accumulate = TRUE)#THIS IS USING THE BASE FUNCTION Reduce
}
<environment: namespace:purrr>

Answer 2

事实证明问题在于在map函数中调用data_frame。显然，创建数据框架很慢。如果你牺牲使用数据框而不是坚持使用列表，那么它可以更快地完成：

result <- data %>%
  pmap(function(id,word){
    map(1:length(word),function(i) list(id = id, sub = word[1:i]))
  }) %>%
  purrr::flatten()

我希望我可以使用data_frame将其全部转换为bind_rows()，但由于某种原因，该功能不适用于列表列。

Answer 3

在Reduce中使用lapply可能会更快

x <- lapply(data$word, function(w){
    Reduce(c, w, accumulate = TRUE)}

然后你可以将它们绑定回data_frame

id2 <- rep(id, unlist(lapply(x, length)))

data2 <- data_frame(id2, subs=unlist(x, recursive=FALSE))

R：快速生成部分序列

3 个答案: