考虑多元回归的标准模型
假设我们执行岭回归,通过将相同的少量添加到对角线的所有元素:
有一些值岭系数的均方误差比 OLS 得到的要小,尽管是一个有偏估计量. 在实践中,是通过交叉验证获得的。
这是我的问题:岭模型背后的假设是什么?更具体地说,
普通最小二乘法 (OLS) 的所有假设都适用于岭回归吗?
如果问题 1 为“是”,我们如何使用有偏估计量来检验同方差性和缺乏自相关性?
在岭回归下测试其他 OLS 假设(同方差性和缺乏自相关性)是否有任何工作?
考虑多元回归的标准模型
假设我们执行岭回归,通过将相同的少量添加到对角线的所有元素:
有一些值岭系数的均方误差比 OLS 得到的要小,尽管是一个有偏估计量. 在实践中,是通过交叉验证获得的。
这是我的问题:岭模型背后的假设是什么?更具体地说,
普通最小二乘法 (OLS) 的所有假设都适用于岭回归吗?
如果问题 1 为“是”,我们如何使用有偏估计量来检验同方差性和缺乏自相关性?
在岭回归下测试其他 OLS 假设(同方差性和缺乏自相关性)是否有任何工作?
我不是统计学家,所以这可能是错误的,但我认为“假设”这个词经常被非正式地使用,可以指代各种事物。对我来说,严格来说,“假设”是只有理论结果(定理)才能拥有的东西。
当人们谈论线性回归的假设时(请参阅此处进行深入讨论),他们通常指的是高斯马尔可夫定理,即在不相关、等方差、零均值误差的假设下,OLS 估计为蓝色,即无偏且方差最小。在高斯-马尔可夫定理的背景之外,我不清楚“回归假设”是什么意思。
类似地,例如单样本 t 检验的假设是指假设-统计是-distributed,因此推断是有效的。它不叫“定理”,但它是一个明确的数学结果:如果样本服从正态分布,则-statistic 将遵循学生的-分布与自由程度。
现在考虑任何正则化回归技术:岭回归,套索,弹性网,主成分回归,偏最小二乘回归等。这些方法的重点是对回归参数进行有偏估计,并希望减少预期通过利用偏差-方差权衡来损失。
所有这些方法都包括一个或几个正则化参数,并且没有一个确定这些参数值的选择规则。最佳值通常是通过某种交叉验证过程找到的,但是有多种交叉验证方法,它们会产生一些不同的结果。此外,除了交叉验证之外,调用一些额外的经验法则并不少见。结果,实际结果这些惩罚回归方法中的任何一个实际上都没有完全由该方法定义,但可能取决于分析师的选择。
因此,我不清楚如何有关于,因此我不确定谈论诸如岭回归之类的惩罚方法的“假设”(存在或不存在)是否有意义。
Hoerl & Kennard (1970) 在Ridge Regression: Biased Estimation for Nonorthogonal Problems中证明了正则化参数的值总是存在的这样岭回归估计具有比 OLS 估计值更小的预期损失。这是一个令人惊讶的结果——请参阅此处进行一些讨论,但这仅证明了这样的存在,这将取决于数据集。
这个结果实际上不需要任何假设并且总是正确的,但是声称岭回归没有任何假设会很奇怪。
我想说,即使我们不能谈论假设,我们也可以谈论经验法则。众所周知,岭回归往往在具有相关预测变量的多元回归的情况下最有用。众所周知,它的性能往往优于 OLS,而且通常大幅度提高。即使在异方差、相关误差或其他任何情况下,它也会倾向于优于它。所以简单的经验法则说,如果你有多重共线性数据,岭回归和交叉验证是个好主意。
可能还有其他有用的经验法则和交易技巧(例如如何处理总异常值)。但它们不是假设。
请注意,对于 OLS 回归,需要一些假设-要持有的值。相比之下,很难获得-岭回归中的值。如果完全做到这一点,它是通过自举或一些类似的方法完成的,并且在这里很难指出具体的假设,因为没有数学保证。
我想从统计的角度提供一些意见。如果 Y~N(Xb, sigma2*In),则 b^ 的均方误差为
MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))
D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))
b^=inv(X.T*X)*X.T*Y
如果 XT X 近似为零,则 inv(XT X) 将非常大。所以b的参数估计是不稳定的,会出现以下问题。
为了使 b 的序数最小二乘估计稳定,我们通过b^(k)=inv(X.T*X+kI)*X.T*Y.
估计
MSE(b^(k)) < MSE(b^).
在机器学习中,岭回归被称为 L2 正则化,用于对抗由许多特征引起的过拟合问题。