为什么 OLS 假设“没有完美的多重共线性”如此重要?

机器算法验证 回归 最小二乘 多重共线性
2022-03-13 02:25:17

其中是误差项,是回归量。Y=β1X1+β2X2+...+uuXis

其中一项假设表明

(1) 不存在完美的多重共线性。

我真的无法理解完美多重共线性的存在会对我们的系数产生什么影响?我明白完美的多重共线性意味着什么,以及所有这些,但它对我们的回归有何影响,以某种方式在一开始就假设它不存在?

另外,当具有完美的多重共线性时,为什么丢弃截距可以帮助我们避免它?我的意思是,当两个回归量由于某种原因处于线性关系时,当您出于某些原因设置回归的截距时,您现在可以避免多重共线性?=0

2个回答

我敢打赌这在这个板上被覆盖了一百万次。简而言之:因为设计矩阵退化了,OLS的线性代数问题没有唯一解。将有无数同样好的解决方案,并且没有办法判断哪个更好。

技术细节:设计矩阵是一个矩阵,它通过将所有个变量放在列中并将所有观察值放在行中来构造。它是其中是从 1 到的行,是从 1 到的列。碰巧的是,当存在完美共线性时,矩阵可以简化为矩阵,其中每列现在代表一组新的变量使得换句话说,新设计矩阵的列比原来的少,但没有丢失任何信息。pnXijinjpXXikk=[1,p]p<pX

在这种情况下,通常的解不存在,因为是单数。另一方面,解确实存在于新的变量集上。因此,完美共线性的唯一问题是原始变量集没有唯一解,但确实有解。β=(XTX)1XTY(XTX)1β=(XTX)1XTY

这意味着您可以选择任何非唯一的解决方案,并且它将与其他任何解决方案一样好。请注意,它不会像其他任何一样糟糕。因此,您可以使用此解决方案来预测唯一的问题是您必须跳出典型的 OLS 方法才能找到解决方案,因为 OLS 的线性代数技巧不起作用。像梯度下降这样的东西会起作用。Y

完美的多重共线性会导致巨大的痛苦。假设您的数据由单个参数生成,并添加了噪声过程,因此YXuY=βX+u

现在让我(愚蠢地!)采用模型,其中存在完美的多重共线性,例如我尝试通过回归找到但是对于许多解决方案,最小二乘误差同样被最小化,只要所以事实上,在这种情况下,没有办法声明也没有办法说明的置信区间。就个人而言,除非我能给出置信区间,否则我不认为任何统计量都是有意义的。Y=β1X1+β2X2+uX1=X2β1,β2β1+β2=ββ1β2β1β2