在无信息的 beta 先验之间进行选择

机器算法验证 贝叶斯 事先的 贝塔分布 无信息先验
2022-02-16 01:13:19

我正在寻找与二项式过程(命中/未命中)一起使用的 beta 分布的无信息先验。起初我考虑使用α=1,β=1生成统一的 PDF 或 Jeffrey 先验α=0.5,β=0.5. 但我实际上是在寻找对后验结果影响最小的先验,然后我考虑使用不正确的先验α=0,β=0. 这里的问题是,我的后验分布仅在我至少有一次命中和一次未命中时才有效。为了克服这个问题,我考虑使用一个非常小的常数,比如α=0.0001,β=0.0001,只是为了保证后验αβ将会>0.

有谁知道这种方法是否可以接受?我看到了改变这些先验的数值效果,但是有人可以给我一种将这样的小常数作为先验的解释吗?

1个回答

首先,不存在无信息先验之类的东西在下面,您可以看到在给定不同数据的情况下由五个不同的“无信息”先验(在图下方描述)产生的后验分布。如您所见,“无信息”先验的选择会影响后验分布,尤其是在数据本身没有提供太多信息的情况下。

来自无信息先验的后验

Beta 分布的“无信息”先验具有以下属性:α=β,导致对称分布的原因,以及α1,β1,常见的选择:均一(Bayes-Laplace)先验(α=β=1), 杰弗里斯之前 (α=β=1/2), “中性”优先 (α=β=1/3) 由 Kerman (2011) 提出,Haldane 先于 (α=β=0),或者它的近似值 (α=β=εε>0)(另见伟大的维基百科文章)。

Beta 先验分布的参数通常被认为是成功的“伪计数”(α) 和失败 (β) 因为β-二项式模型在观察后的后验分布y成功n试验是

θyB(α+y,β+ny)

所以越高α,β是,他们在后面的影响力越大。所以在选择的时候α=β=1您假设您事先“看到”了一次成功和一次失败(这可能会或可能不会太多,具体取决于n)。

乍一看,Haldane 先验似乎是最“无信息的”,因为它导致后验均值,即正好等于最大似然估计

α+yα+y+β+ny=y/n

但是,它会导致不正确的后验分布y=0或者y=n,是什么让 Kernal 等人提出了他们自己的先验,即产生尽可能接近最大似然估计的后验中值,同时是一个适当的分布。

有许多论据支持和反对每个“无信息”先验(见 Kerman,2011;Tuyl 等,2008)。例如,正如 Tuyl 等人所讨论的,

. . . 需要注意以下参数值1,对于非信息性和信息性先验,因为这些先验将它们的质量集中在0和/或1并且可以抑制观测数据的重要性。

另一方面,对小数据集使用统一的先验可能非常有影响力(从伪计数的角度考虑)。您可以在多篇论文和手册中找到有关此主题的更多信息和讨论。

很抱歉,但没有单一的“最佳”、“最无信息”或“一刀切”的先验。他们每个人都将一些信息带入模型中。

克尔曼,J. (2011)。中性非信息性和信息性共轭 beta 和 gamma 先验分布。电子统计杂志,5,1450-1470。

Tuyl, F.、Gerlach, R. 和 Mengersen, K. (2008)。贝叶斯-拉普拉斯、杰弗里斯和其他先验的比较。美国统计学家,62(1):40-44。