使用不同的分布拟合生存密度曲线

时间:2016-10-09 13:00:50

标签: r plot distribution survival-analysis

我正在使用一些日志正常数据,我自然希望以比其他可能的分布更好的重叠来演示对数正态分布结果。基本上,我想用我的数据复制以下图表:

fitted density curves

其中拟合密度曲线并列在log(time)上。

链接图像所来自的文本将过程描述为拟合每个模型并获得以下参数:

table

为此目的,我使用上述分布拟合了四个天真的生存模型:

survreg(Surv(time,event)~1,dist="family")

并提取形状参数(α)和系数(β)。

我对这个过程有几个问题:

1)这是正确的方式吗?我已经研究了几个R包但找不到将密度曲线绘制为内置函数的包,所以我觉得我必须忽略一些明显的东西。

2)对应的对数正态分布(μ和σ$ ^ 2 $)的值是否只是截距的均值和方差?

3)如何在R中创建类似的表? (也许这更像是一个堆栈溢出问题)我知道我可以手动cbind它们,但我更感兴趣的是从拟合的模型中调用它们。 survreg个对象存储系数估计值,但调用survreg.obj$coefficients会产生一个指定的数字向量(而不仅仅是一个数字)。

4)最重要的是,我如何绘制类似的图表?我认为如果我只是提取参数并将它们绘制在histrogram上就会相当简单,但到目前为止还没有运气。该文的作者说,他从参数估计密度曲线,但我得到一个点估计 - 我错过了什么?在绘图之前,我应该根据分布手动计算密度曲线吗?

我不确定如何在这种情况下提供一个mwe,但老实说,我只需要一个通用的解决方案来为生存数据添加多个密度曲线。另一方面,如果您认为它会有所帮助,请随时推荐一个mwe解决方案,我会尝试制作一个。

感谢您的投入!

编辑:根据eclark的帖子,我取得了一些进展。我的参数是:

Dist = data.frame(
Exponential = rweibull(n = 10000, shape = 1, scale = 6.636684),
Weibull = rweibull(n = 10000, shape = 6.068786, scale = 2.002165),
Gamma = rgamma(n = 10000, shape = 768.1476, scale = 1433.986),
LogNormal = rlnorm(n = 10000, meanlog = 4.986, sdlog = .877)
)

然而,鉴于尺度的巨大差异,这就是我得到的:

plot

回到第3个问题,我应该如何获取参数? 目前我就是这样做的(抱歉这个烂摊子):

summary(fit.exp)

Call:
survreg(formula = Surv(duration, confterm) ~ 1, data = data.na, 
dist = "exponential")
        Value Std. Error   z p
(Intercept)  6.64      0.052 128 0

Scale fixed at 1 

Exponential distribution
Loglik(model)= -2825.6   Loglik(intercept only)= -2825.6
Number of Newton-Raphson Iterations: 6 
n= 397 

summary(fit.wei)

Call:
survreg(formula = Surv(duration, confterm) ~ 1, data = data.na, 
dist = "weibull")
        Value Std. Error    z        p
(Intercept) 6.069     0.1075 56.5 0.00e+00
Log(scale)  0.694     0.0411 16.9 6.99e-64

Scale= 2 

Weibull distribution
Loglik(model)= -2622.2   Loglik(intercept only)= -2622.2
Number of Newton-Raphson Iterations: 6 
n= 397 

summary(fit.gau)

Call:
survreg(formula = Surv(duration, confterm) ~ 1, data = data.na, 
dist = "gaussian")
         Value Std. Error     z        p
(Intercept) 768.15    72.6174  10.6 3.77e-26
Log(scale)    7.27     0.0372 195.4 0.00e+00

Scale= 1434 

Gaussian distribution
Loglik(model)= -3243.7   Loglik(intercept only)= -3243.7
Number of Newton-Raphson Iterations: 4 
n= 397 

summary(fit.log)

Call:
survreg(formula = Surv(duration, confterm) ~ 1, data = data.na, 
dist = "lognormal")
        Value Std. Error    z         p
(Intercept) 4.986     0.1216 41.0  0.00e+00
Log(scale)  0.877     0.0373 23.5 1.71e-122

Scale= 2.4 

Log Normal distribution
Loglik(model)= -2624   Loglik(intercept only)= -2624
Number of Newton-Raphson Iterations: 5 
n= 397 

我觉得我特别搞乱了对数正态,因为它不是标准的形状和系数串联,而是均值和方差。

1 个答案:

答案 0 :(得分:1)

试试这个;我们的想法是使用随机分布函数生成随机变量,然后使用输出数据绘制密度函数,以下是您需要的示例:

require(ggplot2)
require(dplyr)
require(tidyr)

SampleData <- data.frame(Duration=rlnorm(n = 184,meanlog = 2.859,sdlog = .246)) #Asume this is data we have sampled from a lognormal distribution

#Then we estimate the parameters for different types of distributions for that sample data and come up for this parameters
#We then generate a dataframe with those distributions and parameters
Dist = data.frame(
  Weibull = rweibull(10000,shape = 1.995,scale = 22.386),
  Gamma = rgamma(n = 10000,shape = 4.203,scale = 4.699),
  LogNormal = rlnorm(n = 10000,meanlog = 2.859,sdlog = .246)
)

#We use gather to prepare the distribution data in a manner better suited for group plotting in ggplot2
Dist <- Dist %>% gather(Distribution,Duration)

#Create the plot that sample data as a histogram
G1 <- ggplot(SampleData,aes(x=Duration)) + geom_histogram(aes(,y=..density..),binwidth=5, colour="black", fill="white") 

#Add the density distributions of the different distributions with the estimated parameters
G2 <- G1 + geom_density(aes(x=Duration,color=Distribution),data=Dist)

plot(G2)

enter image description here