套索回归,没有变量被删除

时间:2015-12-18 17:22:21

标签: statistics classification lasso

我在R中为二元响应变量执行套索回归。

我使用cv.glmnet找到最好的lambda并使用glmnet来检查最佳lambda案例的系数。调用这两个函数时,我指定standardize =TRUEalpha = 1

在我的案例中我有大约40个变量,我相信其中一些变量与散点图和vif之间存在很强的相关性(当我对同一数据执行逻辑回归时)。

我从套索回归得到的最好的lambda是< 0.001并且在最佳模型中没有丢失变量(lambda =最好的lambda)。

想知道为什么没有删除变量。

1 个答案:

答案 0 :(得分:2)

基本上是因为你的lambda值太小了。 lambda<0.001意味着你的罚款很小,根本不重要。看看这个“愚蠢”的例子:

让我们生成一些样本随机数据。请注意,变量zz1是强相关的。

library(glmnet)
z<-rnorm(100)
data<-data.frame(y=3+rnorm(100),x1=rnorm(100),x2=rnorm(100),x3=rnorm(100),x4=rnorm(100),x5=rnorm(100),
             x6=rnorm(100),x7=rnorm(100),x8=rnorm(100),x9=rnorm(100),x10=rnorm(100),z=z,z1=z+rnorm(100,0,0.3))

现在运行一些模型:

gl<-glmnet(y=data$y,x=as.matrix(data[,-1]),alpha = 1)
plot(gl,xvar="lambda")

enter image description here

lambda等于0.001表示log(lambda)=-6.907755,即使在这个“愚蠢”的例子中,我们可以认为系数不会很大(因此值应该等于{{1}我们将得到小而非零的值(如图中所示)。

来自0glmnet的系数与来自lambda=0.001的系数非常相似(就像我说的那样,小glm等于对等可能性没有惩罚):

lambda

现在看看这两种方法的系数有什么不同:

gl1<-glmnet(y=data$y,x=as.matrix(data[,-1]),alpha = 1,lambda=0.001)
gl2<-glm(data=data,formula=y~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10+z+z1) 
gl1$beta
# x1  -0.10985215
# x2  -0.12337595
# x3   0.06088970
# x4  -0.12714515
# x5  -0.12237959
# x6  -0.01439966
# x7   0.02037826
# x8   0.22288055
# x9  -0.10131195
# x10 -0.04268274
# z   -0.04526606
# z1   0.04628616  
gl3$coefficients
(Intercept)          x1          x2          x3          x4          x5          x6 
 2.98542594 -0.11104062 -0.12478162  0.06293879 -0.12833484 -0.12385855 -0.01556657 
         x7          x8          x9         x10           z          z1 
 0.02071605  0.22408006 -0.10195640 -0.04419441 -0.04602251   0.04513612