机器算法验证 - 在线性回归之外使用 L2 正则化时，相同的 MAP 估计假设是否成立？ - 吾爱随笔录

下面分享了一些上下文，我的问题最后用粗体表示。

在线性回归设置中，我们学习模型权重以从新样本中做出预测 $\hat{\mathbf{w}}$ $\mathbf{\hat{y}}$ $\mathbf{x}$

\hat{y} = {\hat{w}}^{T} x

$\hat{\mathbf{y}} = \hat{\mathbf{w}}^T\mathbf{x}$

当假设真正的基础分布是线性组合和高斯噪声项时，

p (y | x) = w^{T} x + N (0, Σ)

$p(\mathbf{y}|\mathbf{x}) = \mathbf{w}^T \mathbf{x} + \mathcal{N}(\mathbf{0}, \Sigma)$

众所周知，最大似然估计 (MLE) 会导致均方误差损失

L_{M L E} (\hat{w}) = \sum_{i = 1}^{n} ({\hat{w}}^{T} x_{i} - y)^{2}

$\mathcal{L}_{MLE}(\mathbf{\hat{w}}) = \sum_{i=1}^n (\hat{\mathbf{w}}^T\mathbf{x}_i - \mathbf{y})^2$

这样最小化就会产生权重的 MLE 估计。 $\mathcal{L}$

此外，如果假设模型权重上的高斯先验分布，则类似的最大后验 (MAP) 估计会引入 L2 正则化器 $\hat{\mathbf{w}}$

L_{M A P} (\hat{w}) = \sum_{i = 1}^{n} ({\hat{w}}^{T} x_{i} - y)^{2} + λ | | \hat{w} | |_{2}^{2}

$\mathcal{L}_{MAP}(\mathbf{\hat{w}}) = \sum_{i=1}^n (\hat{\mathbf{w}}^T\mathbf{x}_i - \mathbf{y})^2 + \lambda||\mathbf{\hat{w}}||^2_2$

我真的很欣赏这些常见做法（MSE 损失和 L2 正则化）可以从第一原理（M 估计器）和简单的分布假设（高斯观测噪声和模型先验）推导出来。

但是 L2 正则化被到处使用——从业者会在各种模型的权重上添加 L2 损失，从逻辑回归到巨大的神经网络。我很欣赏它运作良好，但它似乎有点神秘。 在线性回归设置之外使用时，L2 正则化是否仍然表达相同的优雅分布假设和第一性原理？ 如果没有，一个自然的后续问题，为什么它仍然运作良好？