后验预测分布与 MAP 估计

机器算法验证 贝叶斯 最大似然 后部
2022-04-10 03:54:34

考虑一个训练数据集参数化的概率模型,以及一个先验对于一个新的数据点,我们可以计算使用:XθP(θ)xP(x)

  • 完全贝叶斯方法:后验预测分布P(x|X)=P(θ|X)P(x|θ)dθ
  • 由最大后验估计参数化的似然,其中P(x|θMAP)θMAP=argmaxθP(θ|X)

完全贝叶斯方法总是比 MAP 方法“更好”吗?更准确地说,MAP 方法是贝叶斯方法的近似,在某种意义上,我们希望的一个很好的近似?P(x|θMAP)P(x|X)

2个回答

我经常这样想。在完全贝叶斯方法中,我们找到积分

p(x|X)=p(x|θ)p(θ|X) dθ

作为整合所有可能的模型(实际上是无限多的),我们做出预测时会“考虑”所有这些模型。由于这通常难以处理,我们使用后验的 MAP 估计,这对应于评估相同的积分,但这次使用的是无限小的部分p(θ|X)p(θ|X),即最大值。换句话说,我们乘p(x|θ)在后验分布的最大值处有一个新的“delta-distribution”并将其整合以获得预测。

因此差异相当明显:完全贝叶斯处理对应于无限的模型集合,其中给定的预测p(x|x,θ)由模型概率加权p(θ|x),即更可能的模型将对预测做出更多贡献。参数的 MAP 估计将为您提供一个预测特定模型的预测,即根据贝叶斯定理最有可能的模型。集成理论告诉我们,我们经常获得更好的泛化和更准确的预测,因此这通常会比 MAP“更好”。

希望这可以帮助。

假设您的模型被正确指定,预测分布给出了新数据点的估计值,该估计值考虑了未知参数中的所有不确定性θ. 在第二种方法中,您仅使用估计器使用参数替换,您有效地将其视为未知参数的完美估计器,因此得到的“预测”分布不考虑未知参数的不确定性θ. 因此,后一种分布的变异性往往比前者低,如果您的模型指定正确,这意味着它低估了新数据点的变异性。所以是的,预测分布通常被认为是“更好的”。

顺便说一句,这种比较并不是贝叶斯统计所独有的。您正在比较的这种方法非常类似于频率论方法中出现的类似方法,其中可以使用关键量来获得新数据点的适当置信区间(类似于贝叶斯预测区间),或者可以仅替换将 MLE 视为已知参数值,并从采样分布中获取新数据点的区间(类似于贝叶斯参数替换方法)。