为什么系数大小的正则化改善了线性回归的泛化?

机器算法验证 回归 套索 正则化 岭回归
2022-03-19 06:23:50

岭回归和套索回归所基于的基本论点是什​​么?我浏览了Tikhonov 正则化维基,其中提到

在许多情况下,选择 tikhonov 矩阵作为单位矩阵,优先考虑具有较小范数的解决方案。在其他情况下,如果相信基础向量大部分是连续的,则可以使用低通算子(例如,差分算子或加权傅里叶算子)来强制平滑。

我想了解为什么具有较小规范的解决方案更具吸引力?我可以得到平滑度,但为什么规范更小?

3个回答

您还可以将规范惩罚的正则化视为在概念上类似于随机效应(例如,参见 Koenker 2004 第 2 节的开头,特别是第一个命题)。

根据您的背景,您可能比支持使用正则化的论点更容易接受/熟悉支持使用随机效应的论点。

无论如何,正则化的类型和随机效应的结构之间存在映射,您可以通过借鉴另一个参数来证明使用其中任何一个的合理性。

*纵向数据的分位数回归;Koenker, R. (2004)。多元分析杂志,第 91 卷,第 1 期,第 74-89 页。工作文件版本在这里

通常,人们使用保持集上的错误作为泛化错误的代理。我认为一个公平的回答是,如果在坚持测试中使用 l1 或 l2 惩罚减少了错误,那么无论你在做什么都可能是过度拟合。

现在,关于它为什么起作用:对于回归,您可以将 l2 惩罚视为参数的正常先验。也就是说,它直接表明

argmaxwi=1NlogN(yi|wTxi,σ2)+ilogN(wj|0,τ2)
是 MAP 估计。因此,从 l2 范数的改进可以被认为是从 mle 到 map 估计的胜利。还有一些与 pca 更深层次的联系,我不想在这个框中输入,但本质上,这是一个收缩估计器,它收缩了我们对最不确定的方向。w

关于为什么套索可以改进模型的一种直觉是,如果你有一组高度相关的解释变量,套索可能会帮助你删除其中的一些。

范数是使某些系数为零的平滑方法。如果更多的系数为零,则模型更简洁,有望实现更好的泛化。