MAP 估计作为 MLE 的正则化

机器算法验证 最大似然 正则化 事先的 后部 极值
2022-04-10 15:49:05

浏览有关最大后验估计的维基百科文章,阅读此内容后感到困惑:

它与最大似然 (ML) 估计方法密切相关,但采用了一种增强的优化目标,该目标在想要估计的数量上结合了先验分布(通过相关事件的先验知识量化可用的附加信息)。因此,MAP 估计可以看作是 ML 估计的正则化。

MAP 估计如何被视为 ML 估计的正则化?

编辑:

我对正则化的理解是在机器学习的背景下惩罚高权重。这是通过在包含要学习的权重的损失函数中添加一个术语来修改优化问题来完成的。并且目标是最小化损失,具有较高值的​​参数受到更多惩罚。

一个直观的解释是非常受欢迎的。

1个回答

最大似然法旨在寻找与某些数据最匹配的模型参数:

θML=argmaxθp(x|y,θ)

最大似然不使用任何关于参数预期分布的先验知识θ因此可能会过度拟合特定数据x,y.

最大后验 (MAP) 方法添加了参数的先验分布θ

θMAP=argmaxθp(x|y,θ)p(θ)
最佳解决方案仍必须与数据匹配,但还必须符合您对参数分布的先验知识。

这与在损失函数中添加正则项有什么关系?

不是直接优化后验,而是经常优化对数的负数:

θMAP=argminθlogp(x|y,θ)p(θ)=argminθ(logp(x|y,θ)+logp(θ))

假设你想要参数θ正态分布在零附近,你得到logp(θ)||θ||22.