为什么我的自变量之间的相关性有助于我的线性回归模型?

数据挖掘 Python scikit-学习 数据 线性回归
2022-03-13 01:02:39

我正在使用 PUBG 数据并为其开发线性回归模型!现在我的原始数据集中有三个特征,骑行距离、游泳距离、步行距离。我将这三者与一个新特征结合起来:覆盖距离,它是上述三个特征的总和。当把它放在线性回归模型中时,当我使用三个特征和第四个特征时,与只使用三个特征或只使用第四个特征相比,我得到了更好的分数。我已经读过在开发模型时不应该存在特征之间的相关性。但是当所有具有相关性的特征(其中 4 个)都用于开发模型时,模型具有更好的平方(R-square)。为什么会这样?

1个回答

看来您正在处理Multicollinearity的问题。当您的预测变量与模型中的其他预测变量相关时,就会发生多重共线性。

适度的多重共线性可能没有问题。然而,严重的多重共线性是一个问题,因为它会增加系数估计的方差,并使估计对模型中的微小变化非常敏感。结果是系数估计值不稳定且难以解释。

您可以使用调整后的 R 平方来查看新添加的变量是否实际上有助于您的模型更好地解释方差。