岭回归的假设是什么以及如何测试它们?

机器算法验证 回归 假设 岭回归
2022-01-27 12:18:24

考虑多元回归的标准模型

Y=Xβ+ε
在哪里εN(0,σ2In),所以误差的正态性、同方差性和不相关性都成立。

假设我们执行岭回归,通过将相同的少量添加到对角线的所有元素X

βridge=[XX+kI]1XY

有一些值k岭系数的均方误差比 OLS 得到的要小,尽管βridge是一个有偏估计量β. 在实践中,k是通过交叉验证获得的。

这是我的问题:岭模型背后的假设是什么?更具体地说,

  1. 普通最小二乘法 (OLS) 的所有假设都适用于岭回归吗?

  2. 如果问题 1 为“是”,我们如何使用有偏估计量来检验同方差性和缺乏自相关性β?

  3. 在岭回归下测试其他 OLS 假设(同方差性和缺乏自相关性)是否有任何工作?

2个回答

什么是统计程序的假设?

我不是统计学家,所以这可能是错误的,但我认为“假设”这个词经常被非正式地使用,可以指代各种事物。对我来说,严格来说,“假设”是只有理论结果(定理)才能拥有的东西。

当人们谈论线性回归的假设时(请参阅此处进行深入讨论),他们通常指的是高斯马尔可夫定理,即在不相关、等方差、零均值误差的假设下,OLS 估计为蓝色,即无偏且方差最小。在高斯-马尔可夫定理的背景之外,我不清楚“回归假设”是什么意思。

类似地,例如单样本 t 检验的假设是指假设t-统计是t-distributed,因此推断是有效的。它不叫“定理”,但它是一个明确的数学结果:如果n样本服从正态分布,则t-statistic 将遵循学生的t-分布与n1自由程度。

惩罚回归技术的假设

现在考虑任何正则化回归技术:岭回归,套索,弹性网,主成分回归,偏最小二乘回归等。这些方法的重点是对回归参数进行有估计,并希望减少预期通过利用偏差-方差权衡来损失。

所有这些方法都包括一个或几个正则化参数,并且没有一个确定这些参数值的选择规则。最佳值通常是通过某种交叉验证过程找到的,但是有多种交叉验证方法,它们会产生一些不同的结果。此外,除了交叉验证之外,调用一些额外的经验法则并不少见。结果,实际结果β^这些惩罚回归方法中的任何一个实际上都没有完全由该方法定义,但可能取决于分析师的选择。

因此,我不清楚如何有关于β^,因此我不确定谈论诸如岭回归之类的惩罚方法的“假设”(存在或不存在)是否有意义。

但是岭回归总是胜过 OLS 的数学结果呢?

Hoerl & Kennard (1970) 在Ridge Regression: Biased Estimation for Nonorthogonal Problems中证明了正则化参数的值总是存在的λ这样岭回归估计β具有比 OLS 估计值更小的预期损失。这是一个令人惊讶的结果——请参阅此处进行一些讨论,但这仅证明了这样的存在λ,这将取决于数据集。

这个结果实际上不需要任何假设并且总是正确的,但是声称岭回归没有任何假设会很奇怪。

好的,但是我怎么知道我是否可以应用岭回归?

我想说,即使我们不能谈论假设,我们也可以谈论经验法则众所周知,岭回归往往在具有相关预测变量的多元回归的情况下最有用。众所周知,它的性能往往优于 OLS,而且通常大幅度提高。即使在异方差、相关误差或其他任何情况下,它也会倾向于优于它。所以简单的经验法则说,如果你有多重共线性数据,岭回归和交叉验证是个好主意。

可能还有其他有用的经验法则和交易技巧(例如如何处理总异常值)。但它们不是假设。

请注意,对于 OLS 回归,需要一些假设p-要持有的值。相比之下,很难获得p-岭回归中的值。如果完全做到这一点,它是通过自举或一些类似的方法完成的,并且在这里很难指出具体的假设,因为没有数学保证。

我想从统计的角度提供一些意见。如果 Y~N(Xb, sigma2*In),则 b^ 的均方误差为

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

如果 XT X 近似为零,则 inv(XT X) 将非常大。所以b的参数估计是不稳定的,会出现以下问题。

  1. 某些参数估计的绝对值很大
  2. b 与预期相反的正号或负号。
  3. 添加或删除变量或观察值将使参数估计值发生显着变化。

为了使 b 的序数最小二乘估计稳定,我们通过b^(k)=inv(X.T*X+kI)*X.T*Y.估计

MSE(b^(k)) < MSE(b^).

在机器学习中,岭回归被称为 L2 正则化,用于对抗由许多特征引起的过拟合问题。