如何处理两个重要自变量之间的多重共线性?

时间:2018-03-24 18:50:10

标签: r linear-regression correlation

我现在正在建立一个线性回归模型。有32个自变量。 G3是目标变量。 structure of the dataset

首先,我使用所有自变量构建线性回归模型。这是我得到的结果的一部分: results of linear regression model with all independent variables

如您所见,G1和G2都是重要的独立变量。但它们之间的相关性为0.8521181。所以我认为线性回归模型中存在多重共线性。我现在要找到最好的线性回归模型。我如何解决多重共线性问题?

1 个答案:

答案 0 :(得分:0)

如果多重共线性是模型中的问题,那么解决方案可能相对简单。尝试其中之一:

  • 从模型中删除高度相关的预测变量。如果您有两个或多个高度相关的因素,请从模型中删除一个。因为它们提供冗余信息,所以删除其中一个相关因子通常不会大幅降低R平方。考虑使用逐步回归,最佳子集回归或数据集的专业知识来删除这些变量。选择具有最高R平方值的模型。

  • 使用偏最小二乘回归(PLS)或主成分分析,这种回归方法可将预测变量的数量减少到较小的不相关分量集。