如何检验GAMM中随机效应的统计意义?

时间:2019-01-17 21:10:25

标签: r gam

我现在正在使用软件包mgcv在R中构建GAMM,我的问题是:

  • 首先,我们如何知道随机效应在统计上是否显着?
  • 第二,如何提取模型中的随机截距值?
  • 第三,gamm中的“偏移”是什么意思?我已经检查了R帮助,但是我对函数中的“偏移”一词仍然感到困惑?感谢您的帮助。

该示例摘自《 Generalized additive models: an introduction with R

library(mgcv)
library(gamair)

data(sole)
sole$off <- log(sole$a.1-sole$a.0)
sole$a<-(sole$a.1+sole$a.0)/2 
solr<-sole
solr$t<-solr$t-mean(sole$t)
solr$t<-solr$t/var(sole$t)^0.5
solr$la<-solr$la-mean(sole$la)
solr$lo<-solr$lo-mean(sole$lo)

solr$station <- factor(with(solr,paste(-la,-lo,-t,sep="")))  
som <- gamm(eggs~te(lo,la,t,bs=c("tp","tp"),k=c(25,5),d=c(2,1))
        +s(t,k=5,by=a)+offset(off), family=quasipoisson,
        data=solr,random=list(station=~1))

1 个答案:

答案 0 :(得分:2)

请注意,对于该模型,通过家族twgam()bam()使用Tweedie响应可能更有意义,而gamm()不能使用。实际上,Simon Wood和Matteo Fasiolo用位置尺度Tweedie GAM拟合了这些数据(其中,他们分别使用单独的线性预测变量[model]来建模Tweedie分布的均值,方差和幂参数)。

在@BenBolker的建议下:我什至不会在此模型中专门测试随机效应,而且我通常不在乎它是否显着。这取决于我正在研究的问题或假设。我经常在模型中想要它,因为无论其重要性如何,我都希望将其包含在模型中的数据进行聚类。

但是,我不认为(广义)似然比检验(GLRT)的理论不适用于这种情况下的准可能性 。西蒙·伍德(Simon Wood)在其GAMS教科书第二版的附录A中提供了推导,这些推导表明,如果我们将对数似然替换为对数准似然,则先前得出的最大似然估计结果(包括GLRT的结果)将成立。至少西蒙(Simon)似乎在争论这一点,这表明我在下面提到的测试的解释是可靠的,就像在适当的可能性基础上一样,该解释在summary.gam()中是针对随机效应实现的。

除非我真的需要,否则我将先用gam()bam()然后是gamm4()(后者来自 gamm4 软件包)来拟合此模型,在gamm()之前,尤其是对于非高斯模型,因为gamm()函数必须使用惩罚的拟似然性将此模型拟合为混合效应模型,这不一定是估计这些模型的最佳方法。 / p>

library(mgcv)
library(gamair)
devtools::install_github('gavinsimpson/gratia')
library(gratia)

data(sole)
sole$off <- log(sole$a.1-sole$a.0)
sole$a<-(sole$a.1+sole$a.0)/2 
solr <- sole
solr$t <- solr$t-mean(sole$t)
solr$t <- solr$t/var(sole$t)^0.5
solr$la <- solr$la-mean(sole$la)

solr$lo <- solr$lo-mean(sole$lo)
solr$station <- factor(with(solr,paste(-la,-lo,-t,sep="")))

som <- gam(eggs ~ te(lo, la, t, bs = c('tp','tp'), k = c(25, 5), d = c(2,1)) + 
           s(t, k = 5, by = a) + s(station, bs = 're') + offset(off),
           family = quasipoisson, data = solr, method = 'REML')

然后summary(som)根据@BenBolker提出的似然比检验进行检验,但是对参考分布进行了校正以在参数空间的边界进行检验。

> summary(som)

Family: quasipoisson 
Link function: log 

Formula:
eggs ~ te(lo, la, t, bs = c("tp", "tp"), k = c(25, 5), d = c(2, 
    1)) + s(t, k = 5, by = a) + s(station, bs = "re") + offset(off)

Parametric coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -3.4016     0.3061  -11.11   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Approximate significance of smooth terms:
                edf  Ref.df      F  p-value    
te(lo,la,t)  56.025  65.456  2.547 4.62e-10 ***
s(t):a        4.535   4.886 54.790  < 2e-16 ***
s(station)  128.563 388.000  1.175  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

R-sq.(adj) =  0.833   Deviance explained =   88%
-REML = -7.9014  Scale est. = 0.58148   n = 1575

我在使用gamm()来获得没有随机效应收敛的模型时遇到了麻烦,因此我无法测试随机效应项,甚至在尝试anova()的多模型形式时遇到错误

如果您想使用gam()模型来获得随机效果,则可以使用我的 gratia 包(希望能在CRAN上使用几天,但可以从github安装为如上所示),然后:

> evaluate_smooth(som, 's(station)')
# A tibble: 394 x 5
   smooth    by_variable station                                       est    se
   <chr>     <fct>       <chr>                                       <dbl> <dbl>
 1 s(statio… NA          -0.0004304761904734280.419685714285714-… -0.0396   2.55
 2 s(statio… NA          -0.0004304761904734280.6586857142857140…  1.48     1.20
 3 s(statio… NA          -0.0004304761904734281.15968571428571-1… -0.00606  2.63
 4 s(statio… NA          -0.0004304761904734281.176685714285710.… -0.0767   2.48
 5 s(statio… NA          -0.002430476190475870.9096857142857141.… -0.00654  2.63
 6 s(statio… NA          -0.01243047619047390.4106857142857140.0… -0.802    1.61
 7 s(statio… NA          -0.0154304761904740.631685714285714-0.4… -0.138    2.35
 8 s(statio… NA          -0.02043047619047660.375685714285714-0.… -0.426    1.94
 9 s(statio… NA          -0.02543047619047911.14668571428571-0.4… -0.0333   2.57
10 s(statio… NA          -0.02743047619047450.875685714285714-0.… -0.0673   2.49
# … with 384 more rows

,您需要est列。

偏移量是模型中固定影响值为1的一项。在这种情况下,它被用于标准化计数响应,以便您进行比较的每个对象都一样。在这种情况下,它被用于整合该样本中发现的鸡蛋的年龄。阅读p。 Simon的GAM第2版的第143页,了解有关此模型正在执行的操作以及偏移量的含义的更多信息。

更一般地说,假设您在一条河流中采样了两个蚊帐;一个网的面积是另一个网的两倍。您更有可能在较大的网中捕获更多东西,因此,由于采样工作量较大,因此较大网中的计数也会更高-您用较大的网扫过了更多的河流(假设您对相同数量的网进行了采样时间)。为确保考虑到这种工作上的差异,可以在模型中包括偏移量。偏移量将为offset(log(net_area))(对于带对数链接的Poisson模型)。我们必须在链接比例尺上包含偏移量,因此要包含log()。现在我们正在建模的是单位面积网的数量。