Question

我有一个包含大量缺失值的data.table。我想通过在data.table中的可用值中添加或减去值来填充这些值。特别要考虑这些数据：

> test = data.table(id=c("A","A","A","A","A","B","B","B","B","B"), x=c(NA,NA,0,NA,NA,NA,NA,0,NA,NA))
> test
    id  x
 1:  A NA
 2:  A NA
 3:  A  0
 4:  A NA
 5:  A NA
 6:  B NA
 7:  B NA
 8:  B  0
 9:  B NA
10:  B NA

我需要一个将其转换为：

的操作

    id  x
1:  A -2
2:  A -1
3:  A  0
4:  A  1
5:  A  2
6:  B -2
7:  B -1
8:  B  0
9:  B  1
10: B  2

基本上是na.locf的一个版本，它增加最后一个值而不是重复它。

Answer 1

我们可以按'id'分组，并将行号（seq_len(.N)）与'x'中的位置（which）区别开来，其中它是0（!x ）。我在as.numeric包装，因为输入数据集中的'x'列是numeric，但从差异来看，它被转换为'整数'。如果在分配（class）时:=中存在冲突，则data.table将显示错误，因为它需要匹配class。

test[, x:= as.numeric(seq_len(.N)-which(!x)), id]
test
#    id  x
# 1:  A -2
# 2:  A -1
# 3:  A  0
# 4:  A  1
# 5:  A  2
# 6:  B -2
# 7:  B -1
# 8:  B  0
# 9:  B  1
#10:  B  2

!x更清楚地写为x==0。它返回TRUE/FALSE的逻辑向量。如果有NA个值，则它将保持为NA。通过which换行，我们得到0值的位置。在示例中，每个'id'都为3。

根据列中的其他值填写NA值

1 个答案: