机器算法验证 - 后验预测分布与 MAP 估计 - 吾爱随笔录 - 问答

后验预测分布与 MAP 估计

机器算法验证贝叶斯最大似然后部

2022-04-10 03:54:34

考虑一个训练数据集参数化的概率模型，以及一个先验。对于一个新的数据点，我们可以计算使用： $X$ $\theta$ $P(\theta)$ $x^*$ $P(x^*)$

完全贝叶斯方法：后验预测分布 $P(x^* | X) = \int P(\theta|X) P(x^*|\theta) d\theta$
由最大后验估计参数化的似然，其中 $P(x^* | \theta_{MAP})$ $\theta_{MAP} = \text{argmax}_\theta P(\theta|X)$

完全贝叶斯方法总是比 MAP 方法“更好”吗？更准确地说，MAP 方法是贝叶斯方法的近似，在某种意义上，我们希望是的一个很好的近似？ $P(x^* | \theta_{MAP})$ $P(x^* | X)$

2个回答

我经常这样想。在完全贝叶斯方法中，我们找到积分

p (x^{*} | X) = \int p (x^{*} | θ) p (θ | X) d θ

$p(x^*|X) = \int p(x^*|\theta) p(\theta|X) \text{ d}\theta$

作为整合所有可能的模型（实际上是无限多的），我们做出预测时会“考虑”所有这些模型。由于这通常难以处理，我们使用后验的 MAP 估计，这对应于评估相同的积分，但这次使用的是无限小的部分 $p(\theta|X)$ $p(\theta|X)$ ，即最大值。换句话说，我们乘 $p(x^*|\theta)$ 在后验分布的最大值处有一个新的“delta-distribution”并将其整合以获得预测。

因此差异相当明显：完全贝叶斯处理对应于无限的模型集合，其中给定的预测 $p(x|\textbf{x},\theta)$ 由模型概率加权 $p(\theta|\textbf{x})$ ，即更可能的模型将对预测做出更多贡献。参数的 MAP 估计将为您提供一个预测特定模型的预测，即根据贝叶斯定理最有可能的模型。集成理论告诉我们，我们经常获得更好的泛化和更准确的预测，因此这通常会比 MAP“更好”。

希望这可以帮助。

假设您的模型被正确指定，预测分布给出了新数据点的估计值，该估计值考虑了未知参数中的所有不确定性 $\theta$ . 在第二种方法中，您仅使用估计器使用参数替换，您有效地将其视为未知参数的完美估计器，因此得到的“预测”分布不考虑未知参数的不确定性 $\theta$ . 因此，后一种分布的变异性往往比前者低，如果您的模型指定正确，这意味着它低估了新数据点的变异性。所以是的，预测分布通常被认为是“更好的”。

顺便说一句，这种比较并不是贝叶斯统计所独有的。您正在比较的这种方法非常类似于频率论方法中出现的类似方法，其中可以使用关键量来获得新数据点的适当置信区间（类似于贝叶斯预测区间），或者可以仅替换将 MLE 视为已知参数值，并从采样分布中获取新数据点的区间（类似于贝叶斯参数替换方法）。

其它你可能感兴趣的问题

上一篇使用分段线性回归作为人类寿命极限的证据下一篇贝叶斯方法在机器学习中的意义何在？