在线性回归之外使用 L2 正则化时,相同的 MAP 估计假设是否成立?

机器算法验证 回归 机器学习 最大似然 正则化
2022-03-24 17:18:30

下面分享了一些上下文,我的问题最后用粗体表示。


在线性回归设置中,我们学习模型权重以从新样本做出预测w^y^x

y^=w^Tx

当假设真正的基础分布是线性组合和高斯噪声项时,

p(y|x)=wTx+N(0,Σ)

众所周知,最大似然估计 (MLE) 会导致均方误差损失

LMLE(w^)=i=1n(w^Txiy)2

这样最小化就会产生权重的 MLE 估计。L

此外,如果假设模型权重上的高斯先验分布,则类似的最大后验 (MAP) 估计会引入 L2 正则化器w^

LMAP(w^)=i=1n(w^Txiy)2+λ||w^||22

我真的很欣赏这些常见做法(MSE 损失和 L2 正则化)可以从第一原理(M 估计器)和简单的分布假设(高斯观测噪声和模型先验)推导出来。

但是 L2 正则化被到处使用——从业者会在各种模型的权重上添加 L2 损失,从逻辑回归到巨大的神经网络。我很欣赏它运作良好,但它似乎有点神秘。 在线性回归设置之外使用时,L2 正则化是否仍然表达相同的优雅分布假设和第一性原理? 如果没有,一个自然的后续问题,为什么它仍然运作良好?

0个回答
没有发现任何回复~