理解线性回归的假设之一:多重共线性

数据挖掘 回归 预测建模 线性回归 共线性
2022-03-10 08:10:53

我读过多重共线性是多元线性回归的主要假设之一 - 当自变量彼此高度相关时会发生多重共线性。

然而,在学习线性回归时,关键主题之一是将交互项引入模型以模拟交互效应的想法,即当自变量对因变量的影响发生变化时,取决于一个或多个其他自变量。

这两种说法不矛盾吗?如果真的有互动X1X2在模型中y=β0+β1X1+β2X2我们当然应该删除X1或者X2因此回归模型中的自变量不再相关,因此多重共线性假设成立。加入交互项似乎忽略了这个假设,而是引入了一个进一步的术语以使其进一步复杂化。

从建模的角度来看,这是有道理的,但如果我们这样做,数学不会崩溃吗?

1个回答

交互效应和共线性有两个不同的含义。

多重共线性只是说明两个或多个预测变量是否相关,即一个变量的变化会改变另一个变量。正如您在问题中提到的那样,我相信对此没有任何混淆。
但是多重共线性不需要响应变量就可以计算出来

根据定义,交互总是在预测变量如何与结果相关的背景下进行。

更正式地说,如果两个或多个预测变量的组合效应与我们在单独考虑时将它们的每个效应的影响相加时的预期不同(更少或更大),则称它们相互作用。

一个简单直观的例子是——考虑水和肥料对大田玉米作物产量的影响。没有水,只有一些肥料,大田玉米作物将不会产生任何产量,因为水是植物生长的必要条件。反之,只要有足够的水量但没有肥料,大田玉米就会产生一些产量。然而,最好用足量的水和足量的肥料优化产量。因此,当水和肥料以适当的量结合时,产生的产量比单独产生的要高

它表示为 - y=β0+β1x1+β2x2+β3x1x2+error

β3解释了两者之间的相互作用x1x2

根据不同的参数值,相互作用可以是加性(无相互作用)、协同(+ve)、拮抗(-ve)、非典型。


Reference
Quotes, example and the equation is from -
Feature Engineering and Selection: A Practical Approach for Predictive Models , Max Kuhn 和 Kjell Johnson
很好地阅读了不同特征工程概念的深入解释。
互联网链接