Question

对于这个数据集，我有一个疾病数据集。 disease_rate是因变量，其余是独立变量。

{{1}}

这里只有半径的p值-P <= 0.05，其余所有其他变量的p值都大于该半径。

在这种情况下有什么方法可以进行变量选择吗？导致其余所有其他变量具有更大的p值。

如果我们可以进行变量选择，请提出建议。还请帮助我为该模型提取Mallows CP值。

请帮助。

Answer 1

变量和模型选择在很大程度上取决于模型的目的。对于一般规则，请记住以下概括：

保留具有定量意义和统计意义的变量。您正确地识别出该半径在统计上是重要的。这在数量上也是有意义的（我们可以看到它，因为它的系数0.33809并不等于0）-因此您一定要保留此变量。
使用判断来保留或忽略在数量上有意义但在统计上不重要的回归变量。这些变量将取决于模型的目的-准确性最重要吗？您是否要避免某个结果（例如在预测，假阳性等情况下）。 “纹理”，以及在较小程度上是“平滑度”，都具有较高的系数，但也具有较高的p值，因此它们属于此类。尝试在有和没有模型的情况下运行模型，并检查结果。另外，如果您的数据集很小，请尝试考虑是否存在已知的依赖关系-如果存在，您可能希望将这些变量保留在模型中
当回归变量的统计显着性（即p值较高）和系数（例如“周长”和“面积”）较小时，通常会将其从模型中省略

获取Mallow的Cp：

fit <- lm(formula = desease_rate ~ radius + texture + perimeter + area + smoothness, data = df1)
library(locfit)
cp(fit)

您可以查看文档here。

为制作的每种模型查找Mallow的Cp-较低的Mallow的Cp表示更精确的模型