下面分享了一些上下文,我的问题最后用粗体表示。
在线性回归设置中,我们学习模型权重以从新样本中做出预测
当假设真正的基础分布是线性组合和高斯噪声项时,
众所周知,最大似然估计 (MLE) 会导致均方误差损失
这样最小化就会产生权重的 MLE 估计。
此外,如果假设模型权重上的高斯先验分布,则类似的最大后验 (MAP) 估计会引入 L2 正则化器
我真的很欣赏这些常见做法(MSE 损失和 L2 正则化)可以从第一原理(M 估计器)和简单的分布假设(高斯观测噪声和模型先验)推导出来。
但是 L2 正则化被到处使用——从业者会在各种模型的权重上添加 L2 损失,从逻辑回归到巨大的神经网络。我很欣赏它运作良好,但它似乎有点神秘。 在线性回归设置之外使用时,L2 正则化是否仍然表达相同的优雅分布假设和第一性原理? 如果没有,一个自然的后续问题,为什么它仍然运作良好?