为什么拉普拉斯先于产生稀疏解决方案？

机器算法验证回归贝叶斯事先的正则化拉普拉斯分布

2022-02-09 14:17:04

我浏览了有关正则化的文献，经常看到将 L2 正则化与高斯先验联系起来的段落，以及将 L1 与以零为中心的拉普拉斯联系起来的段落。

我知道这些先验的样子，但我不明白它是如何转化为例如线性模型中的权重的。在 L1 中，如果我理解正确，我们期望稀疏解决方案，即某些权重将被推到完全为零。在 L2 中，我们得到了小的权重，但不是零权重。

但为什么会发生呢？

如果我需要提供更多信息或澄清我的思路，请发表评论。

2个回答

拉普拉斯分布先验与中值（或 L1 范数）的关系是由拉普拉斯自己发现的，他发现使用这种先验估计中值而不是正态分布的平均值（参见 Stingler，1986 或维基百科）。这意味着具有拉普拉斯误差分布的回归估计中位数（例如分位数回归），而正态误差指的是 OLS 估计。

Tibshirani (1996) 也描述了您询问的稳健先验，他注意到贝叶斯设置中的稳健 Lasso 回归等同于使用拉普拉斯先验。系数的这种先验以零为中心（变量居中）并且尾部很宽 - 因此使用它估计的大多数回归系数最终都为零。仔细看下图就清楚了，拉普拉斯分布在零附近有一个峰值（分布质量更大），而正态分布在零附近更分散，因此非零值具有更大的概率质量。稳健先验的其他可能性是 Cauchy 或 $t$ - 分布。

使用这样的先验，你更容易得到许多零值系数，一些中等大小和一些大尺寸（长尾），而使用普通先验你得到更多中等大小的系数，而不是完全为零，但是离零也不远。

（图片来源 Tibshirani，1996 年）

斯蒂格勒，SM (1986)。统计史：1900 年之前的不确定性测量。马萨诸塞州剑桥市：哈佛大学出版社的贝尔纳普出版社。

Tibshirani, R. (1996)。通过套索进行回归收缩和选择。皇家统计学会杂志。B 系列（方法论），267-288。

Gelman, A.、Jakulin, A.、Pittau, GM 和 Su, Y.-S。（2008 年）。逻辑和其他回归模型的信息量较弱的默认先验分布。应用统计年鉴，2（4），1360-1383。

诺顿，RM（1984 年）。双指数分布：使用微积分找到最大似然估计。美国统计学家，38（2）：135-136。

常客观点👀

在某种意义上，我们可以将这两种正则化视为“缩小权重”；L2 最小化权重的欧几里得范数，而 L1 最小化曼哈顿范数。按照这种思路，我们可以推断出 L1 和 L2 的等势分别是球形和菱形，因此 L1 更可能导致稀疏解，如 Bishop 的模式识别和机器学习所示：

贝叶斯观点👀

然而，为了理解先验与线性模型的关系，我们需要理解普通线性回归的贝叶斯解释。Katherine Bailey 的博文非常适合阅读此内容。简而言之，我们假设线性模型中的正态分布 iid 误差

y = θ^{⊤} X + ϵ

$\mathbf{y} = \mathbf{\theta}^\top\mathbf{X} + \mathbf\epsilon$

即我们的每个人 $N$ 测量 $y_i, i = 1, 2, \ldots, N$ 有噪音 $\epsilon_k\sim \mathcal{N}(0,\sigma)$ .

那么我们可以说我们的线性模型也具有高斯似然性！的可能性 $\mathbf{y}$ 是

p (y | X, θ; ϵ) = N (θ^{⊤} X, σ)

$\begin{equation} p(\mathbf{y}|\mathbf{X}, \mathbf{\theta}; \mathbf{\epsilon}) = \mathcal{N}(\mathbf{\theta}^\top\mathbf{X}, \mathbf{\sigma}) \end{equation}$

事实证明......最大似然估计与在误差的正态假设下最小化预测输出值和实际输出值之间的平方误差相同。

\begin{aligned} {\hat{θ}}_{MLE} & = \arg max_{θ} \log P (y | θ) \\ = \underset{θ}{\arg min} \sum_{i = 1}^{n} (y_{i} - θ^{⊤} x_{i})^{2} \end{aligned}

$\begin{align*} {\bf \hat{\theta}_{\text{MLE}}} &= \arg\max_{\bf \theta} \log P(y | \theta) \\ &=\underset{\theta}{\arg\min} \sum_{i=1}^n(y_i - \theta^\top{\mathbf{x}_i})^2 \end{align*}$

正则化作为将先验放在权重上

如果我们在线性回归的权重上放置一个非均匀先验 $P(\theta)$

{\hat{θ}}_{MAP} = \arg max_{θ} \log P (y | θ) + \log P (θ)

$\begin{equation*} {\bf \hat{\theta}_{\text{MAP}}} = \arg\max_{\bf \theta} \log P(y | \theta) + \log P(\theta) \end{equation*}$

正如在Brian Keng 的博文中得出的那样，如果是拉普拉斯分布，则它等效于上的 L1 正则化。 $P(\theta)$ $\theta$

类似地，如果是一个高斯分布，它相当于上的 L2 正则化。 $P(\theta)$ $\theta$

现在我们对为什么在权重上放置拉普拉斯先验更有可能导致稀疏性有了另一种看法：因为拉普拉斯分布更集中在零附近，所以我们的权重更可能为零。

其它你可能感兴趣的问题

上一篇为什么非零中心激活函数在反向传播中是个问题？下一篇“确定系数”和“均方误差”有什么区别？