机器算法验证 - 为什么系数大小的正则化改善了线性回归的泛化？ - 吾爱随笔录

为什么系数大小的正则化改善了线性回归的泛化？

机器算法验证回归套索正则化岭回归

2022-03-19 06:23:50

岭回归和套索回归所基于的基本论点是什么？我浏览了Tikhonov 正则化维基，其中提到

在许多情况下，选择 tikhonov 矩阵作为单位矩阵，优先考虑具有较小范数的解决方案。在其他情况下，如果相信基础向量大部分是连续的，则可以使用低通算子（例如，差分算子或加权傅里叶算子）来强制平滑。

我想了解为什么具有较小规范的解决方案更具吸引力？我可以得到平滑度，但为什么规范更小？

3个回答

您还可以将规范惩罚的正则化视为在概念上类似于随机效应（例如，参见 Koenker 2004 第 2 节的开头，特别是第一个命题）。

根据您的背景，您可能比支持使用正则化的论点更容易接受/熟悉支持使用随机效应的论点。

无论如何，正则化的类型和随机效应的结构之间存在映射，您可以通过借鉴另一个参数来证明使用其中任何一个的合理性。

*纵向数据的分位数回归；Koenker, R. (2004)。多元分析杂志，第 91 卷，第 1 期，第 74-89 页。工作文件版本在这里

通常，人们使用保持集上的错误作为泛化错误的代理。我认为一个公平的回答是，如果在坚持测试中使用 l1 或 l2 惩罚减少了错误，那么无论你在做什么都可能是过度拟合。

现在，关于它为什么起作用：对于回归，您可以将 l2 惩罚视为参数的正常先验。也就是说，它直接表明

\underset{w}{argmax} \sum_{i = 1}^{N} \log N (y_{i} | w^{T} x_{i}, σ^{2}) + \sum_{i} \log N (w_{j} | 0, τ^{2})

$\underset{ \boldsymbol{w} }{\operatorname{argmax}} \sum_{i=1}^{N} \log \mathcal{N}( y_{i} | \boldsymbol{w^{T}x_{i}}, \sigma^2) + \sum_{i} \log \mathcal{N}(w_j | 0, \tau^2)$ 是 MAP 估计。因此，从 l2 范数的改进可以被认为是从 mle 到 map 估计的胜利。还有一些与 pca 更深层次的联系，我不想在这个框中输入，但本质上，这是一个收缩估计器，它收缩了我们对最不确定的方向。

w

$\boldsymbol{w}$

关于为什么套索可以改进模型的一种直觉是，如果你有一组高度相关的解释变量，套索可能会帮助你删除其中的一些。

范数是使某些系数为零的平滑方法。如果更多的系数为零，则模型更简洁，有望实现更好的泛化。

其它你可能感兴趣的问题

上一篇自举是否适合使用小样本量估计多元正态协方差矩阵？下一篇如何找到多元正态的水平曲线？