正则化估计的置信区间覆盖率

机器算法验证 置信区间 偏见 正则化 岭回归 覆盖概率
2022-02-05 04:07:09

假设我正在尝试使用某种正则化估计从一些高维数据中估计大量参数。正则化器在估计中引入了一些偏差,但它仍然是一个很好的权衡,因为方差的减少应该足以弥补它。

当我想估计置信区间(例如使用拉普拉斯近似或自举)时,问题就来了。具体来说,我的估计中的偏差导致我的置信区间的覆盖范围很差,这使得我很难确定我的估计器的频率属性。

我发现了一些讨论这个问题的论文(例如“基于 Edgeworth 扩展的岭回归中的渐近置信区间”),但数学主要是在我的脑海中。在链接的论文中,方程 92-93 似乎为通过岭回归正则化的估计提供了一个校正因子,但我想知道是否有好的程序可以与一系列不同的正则化器一起使用。

即使是一阶校正也会非常有帮助。

2个回答

最近有一篇论文准确地解决了您的问题(据我所知,如果您想对数据执行回归),幸运的是,它提供了易于计算的表达式(高维回归的置信区间和假设检验)。

此外,您可能对Peter Bühlmann最近关于该主题的工作感兴趣。但我相信第一篇论文为你提供了你要找的东西,而且内容更容易消化(我也不是统计学家)。

http://cran.r-project.org/web/packages/hdi/index.html

这是你要找的吗?

Description
Computes confidence intervals for the l1-norm of groups of regression parameters in a hierarchical
clustering tree.