Question

我有一个名为enc.per.day的data.table，用于每天的遭遇。它有2403行，其中指定了服务日期和当天看到的患者数量。我希望看到在任何类型的工作日看到的患者中位数。

enc.per.day[,list(patient.encounters=median(n)),by=list(weekdays(DOS))]

该行给出错误

[.data.table中的错误（enc.per.day ,, list（patient.encounters = median（n））,: j的列不评估为每个组的一致类型：组4的结果具有列1类型“整数”但期望类型为“double”

以下一切都运作良好

tapply(enc.per.day$n,weekdays(enc.per.day$DOS),median)
enc.per.day[,list(patient.encounters=round(median(n))),by=list(weekdays(DOS))]
enc.per.day[,list(patient.encounters=median(n)+0),by=list(weekdays(DOS))]

发生了什么事？我花了很长时间才弄清楚为什么我的代码不起作用。

顺便说一下底层向量enc.per.day $ n是一个整数

storage.mode(enc.per.day$n)

返回“整数”。此外，data.table中没有任何NA。

Answer 1

TL; DR median as.double()

median()'跳了' data.table 因为---即使只传递整数向量--- median()有时会返回一个整数值，有时会返回一个双

## median of 1:3 is 2, of type "integer" 
typeof(median(1:3))
# [1] "integer"

## median of 1:2 is 1.5, of type "double"
typeof(median(1:2))
# [1] "double"

使用最少示例重现错误消息：

library(data.table)
dt <- data.table(patients = c(1:3, 1:2), 
                 weekdays = c("Mon", "Mon", "Mon", "Tue", "Tue"))

dt[,median(patients), by=weekdays]
# Error in `[.data.table`(dt, , median(patients), by = weekdays) : 
#   columns of j don't evaluate to consistent types for each group: 
#   result for group 2 has column 1 type 'double' but expecting type 'integer'

data.table 抱怨，因为在检查了要处理的第一个组的值之后，它得出的结论是，好的，这些结果将是“整数”类型。但是，然后立即（或在第4组的情况下），它传递一个“double”类型的值，这将不适合其“整数”结果向量。

data.table 可以累积结果直到分组计算结束，然后在必要时执行类型转换，但这需要一堆额外的性能降低开销;相反，它只是报告发生了什么，并让你解决问题。在第一个组运行之后，它知道结果的类型，它会分配该类型的结果向量，只要组的数量，然后填充它。如果它后来发现某些组返回多于1个项目，则它将根据需要增长（即重新分配）该结果向量。但在大多数情况下，data.table首次猜测结果的最终大小是正确的（例如，每组1行结果），因此速度很快。

在这种情况下，使用as.double(median(X))代替median(X)会提供合适的解决方案。

（顺便说一句，使用round()的版本有效，因为它总是返回“double”类型的值，您可以通过键入typeof(round(median(1:2))); typeof(round(median(1:3)))看到。）

为什么中位数会绊倒data.table（整数与双数）？

1 个答案: