贝叶斯后验:均值与最高概率

机器算法验证 贝叶斯
2022-04-12 12:30:19

我计算了一个后验分布,其中最高概率(后验曲线的峰值)为 99%。但平均概率较低,约为 98%。这当然是因为“曲线”向 0 延伸的距离远大于向 100 延伸的距离。

我在文献中看到平均值是最重要的(以及它周围的分布),但我的直觉认为峰值点(最高概率所在的位置)更相关。

是否有概念解释为什么(在我的情况下)98%(平均值)比 99%(峰值)更相关?

3个回答

两者都被使用(与中位数一起)。哪个是“最好的”取决于您将如何使用它的上下文。一般来说,对于贝叶斯来说,整个后验分布很有趣,而不仅仅是其中的一个数字。可信区间也很有趣,但是你又可以选择,你想要最高后密度吗?还是每条尾巴中概率相等的区间?HPD 给出了最窄的间隔,但第二个意味着当它不包含真相时,它同样有可能错过任何一方。还有其他构造区间的方法。

那么,你打算如何使用你的单号呢?如果它是测试或家庭作业问题的答案,请使用老师指定的任何内容。如果您想获得理解,请使用整个后验。如果这是针对客户的,那么您至少应该从 CI 开始,单个数字可能会产生误导。

我认为常客的类比是估计后验均值方程和后验模态最大似然方程。它们在任何方面都不等同,但有一些重要的相似之处。当您估计后验模式时,您正在做贝叶斯“最大似然”。

后验模式通常不是首选,因为该值的采样分布可能非常不规则。这有两个原因:后验可能有许多局部最大值,并且模式估计效率非常低,除非做出强有力的假设。这些点在做精确贝叶斯时没有实际意义,在这种情况下,已知后验属于参数族。但是做 Gibbs Sampling all higgeldy piggeldy 并不能保证后验属于任何“已知”的分布族。

在基本概率问题中,当对样本数据的分布和先验规范做出约束性假设时,很容易获得后验的精确表达式。在实践中,这种情况很少见,有限(小)样本中的后验可能是颠簸、丑陋的东西。

后验模式的采样分布确实具有一些收敛特性,就像任何估计器一样。但是没有一个像后验平均值那样被很好地理解和探索。它通常是频率问题中的有效估计器,难怪它在贝叶斯世界中也是首选。

平均值并不总是比众数更相关。这是在贝叶斯方法中表示完整分布的价值的一部分,如果你有完整的分布,你可以提取任何需要的统计信息。

由于中心极限定理,分布的平均值通常可用于描述多次试验的净(求和或平均)结果;这表明大量试验的平均值收敛到基础分布的平均值。

然而,在其他情况下,了解模式或模式附近分布的描述也是有用的,例如使用最速下降近似法。