randomForestSRC - 每位患者的累积危害

时间:2017-04-01 19:41:52

标签: r random-forest survival-analysis

我想使用随机存活森林来预测每位患者的累积危险,并通过选择具有最小累积危害的治疗来预测治疗。我想我很接近,但我不确定我在randomForestSRC包中的其中一个输出得到了什么。

我使用的数据是GBSG2乳腺癌数据。患者或未接受激素治疗。

到目前为止,这是我的代码

#load data
library(TH.data)
data(GBSG2)

#test and train
smp_size <- floor(0.75 * nrow(GBSG2))
set.seed(123)
train_ind <- sample(seq_len(nrow(GBSG2)), size = smp_size)
train <- GBSG2[train_ind, ]
test <- GBSG2[-train_ind, ]

#rsf fit
library(randomForestSRC)
rf.fit <- rfsrc(formula = Surv(time,cens)~., ntree = 100,
                          data=train)
#rsf predict
rf.pred <- predict(rf.fit, test)

#rsf cumulative hazard
rf.pred$chf

enter image description here

我对输出有点困惑。我假设对于每位患者,我会有治疗与非治疗的累积危险。我不确定为什么每个病人都有四个值。

1 个答案:

答案 0 :(得分:1)

rf.pred $ chf的维度为[rf.pred $ n] x [rf.pred $ time.interest]。有关相关终端节点统计和集合的信息,请参阅GitHub页面上的理论和规范部分:

https://kogalur.github.io/randomForestSRC/

相关问题