考虑一个训练数据集参数化的概率模型,以及一个先验。对于一个新的数据点,我们可以计算使用:
- 完全贝叶斯方法:后验预测分布
- 由最大后验估计参数化的似然,其中
完全贝叶斯方法总是比 MAP 方法“更好”吗?更准确地说,MAP 方法是贝叶斯方法的近似,在某种意义上,我们希望是的一个很好的近似?
考虑一个训练数据集参数化的概率模型,以及一个先验。对于一个新的数据点,我们可以计算使用:
完全贝叶斯方法总是比 MAP 方法“更好”吗?更准确地说,MAP 方法是贝叶斯方法的近似,在某种意义上,我们希望是的一个很好的近似?
我经常这样想。在完全贝叶斯方法中,我们找到积分
作为整合所有可能的模型(实际上是无限多的),我们做出预测时会“考虑”所有这些模型。由于这通常难以处理,我们使用后验的 MAP 估计,这对应于评估相同的积分,但这次使用的是无限小的部分,即最大值。换句话说,我们乘在后验分布的最大值处有一个新的“delta-distribution”并将其整合以获得预测。
因此差异相当明显:完全贝叶斯处理对应于无限的模型集合,其中给定的预测由模型概率加权,即更可能的模型将对预测做出更多贡献。参数的 MAP 估计将为您提供一个预测特定模型的预测,即根据贝叶斯定理最有可能的模型。集成理论告诉我们,我们经常获得更好的泛化和更准确的预测,因此这通常会比 MAP“更好”。
希望这可以帮助。
假设您的模型被正确指定,预测分布给出了新数据点的估计值,该估计值考虑了未知参数中的所有不确定性. 在第二种方法中,您仅使用估计器使用参数替换,您有效地将其视为未知参数的完美估计器,因此得到的“预测”分布不考虑未知参数的不确定性. 因此,后一种分布的变异性往往比前者低,如果您的模型指定正确,这意味着它低估了新数据点的变异性。所以是的,预测分布通常被认为是“更好的”。
顺便说一句,这种比较并不是贝叶斯统计所独有的。您正在比较的这种方法非常类似于频率论方法中出现的类似方法,其中可以使用关键量来获得新数据点的适当置信区间(类似于贝叶斯预测区间),或者可以仅替换将 MLE 视为已知参数值,并从采样分布中获取新数据点的区间(类似于贝叶斯参数替换方法)。