使用岭回归时如何估计系数标准误差?

机器算法验证 标准错误 岭回归
2022-01-22 16:23:47

我正在对高度多重共线性的数据使用岭回归。使用 OLS,由于多重共线性,我在系数上得到很大的标准误差。我知道岭回归是解决这个问题的一种方法,但是在我看过的所有岭回归的实现中,没有报告系数的标准误差。我想通过查看岭回归降低特定系数的标准误差的程度来估计岭回归的帮助程度。有没有办法在岭回归中估计它们?

3个回答

我认为 boostrap 将是获得强大 SE 的最佳选择。这是在一些使用收缩方法的应用工作中完成的,例如使用惩罚逻辑回归方法分析北美类风湿性关节炎联盟数据(BMC Proceedings 2009)。Casella 也有一篇关于 SE 计算的不错的论文,其中包括惩罚模型、惩罚回归、标准误差和贝叶斯套索(贝叶斯分析 2010 5(2))。但他们更关心lassoelasticnet惩罚。

我一直认为岭回归是一种比标准 OLS 获得更好预测的方法,标准 OLS 的模型通常并不吝啬。对于变量选择,套索弹性网标准更合适,但是很难应用引导程序(因为所选变量会从一个样本更改为另一个样本,甚至在内部k-fold 循环用于优化1/2参数); 岭回归并非如此,因为您总是考虑所有变量。

我不知道会提供此信息的 R 包。它似乎在glmnet包中不可用(请参阅弗里德曼在 JSS 中的论文,Regularization Paths for Generalized Linear Models via Coordinate Descent)。然而,编写惩罚包的 Jelle Goeman 也讨论了这一点。在网上找不到原始的PDF,所以我简单地引用他的话:

询问回归系数或其他估计量的标准误差是一个非常自然的问题。原则上,这种标准误差可以很容易地计算出来,例如使用 bootstrap。

尽管如此,这个包还是故意不提供它们。这样做的原因是标准误差对于诸如由惩罚估计方法产生的强烈偏差估计不是很有意义。惩罚估计是一种通过引入大量偏差来减少估计量方差的过程。因此,每个估计量的偏差是其均方误差的主要组成部分,而其方差可能只占一小部分。

不幸的是,在惩罚回归的大多数应用中,不可能获得足够精确的偏差估计。任何基于 bootstrap 的计算只能对估计的方差进行评估。只有当可靠的无偏估计可用时,才可获得可靠的偏差估计,这在使用惩罚估计的情况下通常不是这种情况。

因此,报告惩罚估计的标准误差只能说明部分情况。它可以给人一种非常精确的错误印象,完全忽略了由偏差引起的不准确性。仅基于对估计方差的评估做出置信度陈述无疑是错误的,例如基于引导的置信区间所做的。

假设数据生成过程遵循 OLS 背后的标准假设,岭回归的标准误差由下式给出:

σ2(ATA+ΓTΓ)1ATA(ATA+ΓTΓ)1

上面的符号遵循岭回归的 wiki 符号。具体来说,

A是协方差矩阵,

σ2是误差方差。

ΓTikhonov矩阵是否适合在脊回归中选择。

岭回归是对平滑因子进行归一化的 Tikhonov 正则化 (Tk) 的一个子集。更一般的正则化术语ΓTΓ在岭回归中被替换为λI, 在哪里I是单位矩阵,并且λ 是拉格朗日(即约束)乘数,通常也称为平滑、收缩、Tikhonov 或阻尼因子Tk 和岭回归都用于解决病态积分和其他逆问题。“科学中的一个逆问题是从一组观测中计算产生它们的因果因素的过程:例如,在计算机断层扫描中计算图像,在声学中重建源,或者通过测量地球的重力来计算地球的密度字段。此处“SPSS 包含提供所有参数的标准偏差的补充代码,并且可以使用本文附录中的错误传播来导出附加参数。

对 Tikhonov 正则化的普遍误解是平滑量与拟合曲线关系不大,应该使用平滑因子来最小化感兴趣参数的误差。您将不得不更多地解释您试图解决的具体问题,以便在某些有效的逆问题上下文中正确使用岭回归,以及许多关于平滑因子选择的论文,以及许多已发表的 Tikhonov 正则化用途是有点启发式。

此外,Tikhonov 正则化只是众多逆问题处理中的一种。跟随期刊Inverse Problems的链接。