机器算法验证 - 正则化估计的置信区间覆盖率 - 吾爱随笔录

假设我正在尝试使用某种正则化估计从一些高维数据中估计大量参数。正则化器在估计中引入了一些偏差，但它仍然是一个很好的权衡，因为方差的减少应该足以弥补它。

当我想估计置信区间（例如使用拉普拉斯近似或自举）时，问题就来了。具体来说，我的估计中的偏差导致我的置信区间的覆盖范围很差，这使得我很难确定我的估计器的频率属性。

我发现了一些讨论这个问题的论文（例如“基于 Edgeworth 扩展的岭回归中的渐近置信区间”），但数学主要是在我的脑海中。在链接的论文中，方程 92-93 似乎为通过岭回归正则化的估计提供了一个校正因子，但我想知道是否有好的程序可以与一系列不同的正则化器一起使用。

即使是一阶校正也会非常有帮助。