机器算法验证 - 在无信息的 beta 先验之间进行选择 - 吾爱随笔录

在无信息的 beta 先验之间进行选择

机器算法验证贝叶斯事先的贝塔分布无信息先验

2022-02-16 01:13:19

我正在寻找与二项式过程（命中/未命中）一起使用的 beta 分布的无信息先验。起初我考虑使用 $\alpha=1, \beta=1$ 生成统一的 PDF 或 Jeffrey 先验 $\alpha=0.5, \beta=0.5$ . 但我实际上是在寻找对后验结果影响最小的先验，然后我考虑使用不正确的先验 $\alpha=0, \beta=0$ . 这里的问题是，我的后验分布仅在我至少有一次命中和一次未命中时才有效。为了克服这个问题，我考虑使用一个非常小的常数，比如 $\alpha=0.0001, \beta=0.0001$ ，只是为了保证后验 $\alpha$ 和 $\beta$ 将会 $>0$ .

有谁知道这种方法是否可以接受？我看到了改变这些先验的数值效果，但是有人可以给我一种将这样的小常数作为先验的解释吗？

1个回答

首先，不存在无信息先验之类的东西。在下面，您可以看到在给定不同数据的情况下由五个不同的“无信息”先验（在图下方描述）产生的后验分布。如您所见，“无信息”先验的选择会影响后验分布，尤其是在数据本身没有提供太多信息的情况下。

Beta 分布的“无信息”先验具有以下属性： $\alpha = \beta$ ，导致对称分布的原因，以及 $\alpha \le 1, \beta \le 1$ ，常见的选择：均一（Bayes-Laplace）先验（ $\alpha = \beta = 1$ ), 杰弗里斯之前 ( $\alpha = \beta = 1/2$ ), “中性”优先 ( $\alpha = \beta = 1/3$ ) 由 Kerman (2011) 提出，Haldane 先于 ( $\alpha = \beta = 0$ )，或者它的近似值 ( $\alpha = \beta = \varepsilon$ 和 $\varepsilon > 0$ )（另见伟大的维基百科文章）。

Beta 先验分布的参数通常被认为是成功的“伪计数”（ $\alpha$ ) 和失败 ( $\beta$ ) 因为β-二项式模型在观察后的后验分布 $y$ 成功 $n$ 试验是

θ ∣ y \sim B (α + y, β + n - y)

$\theta \mid y \sim \mathcal{B}(\alpha + y, \beta + n - y)$

所以越高 $\alpha,\beta$ 是，他们在后面的影响力越大。所以在选择的时候 $\alpha=\beta=1$ 您假设您事先“看到”了一次成功和一次失败（这可能会或可能不会太多，具体取决于 $n$ ）。

乍一看，Haldane 先验似乎是最“无信息的”，因为它导致后验均值，即正好等于最大似然估计

\frac{α + y}{α + y + β + n - y} = y / n

$\frac{\alpha + y}{\alpha + y + \beta + n - y} = y / n$

但是，它会导致不正确的后验分布 $y=0$ 或者 $y=n$ ，是什么让 Kernal 等人提出了他们自己的先验，即产生尽可能接近最大似然估计的后验中值，同时是一个适当的分布。

有许多论据支持和反对每个“无信息”先验（见 Kerman，2011；Tuyl 等，2008）。例如，正如 Tuyl 等人所讨论的，

. . . 需要注意以下参数值 $1$ ，对于非信息性和信息性先验，因为这些先验将它们的质量集中在 $0$ 和/或 $1$ 并且可以抑制观测数据的重要性。

另一方面，对小数据集使用统一的先验可能非常有影响力（从伪计数的角度考虑）。您可以在多篇论文和手册中找到有关此主题的更多信息和讨论。

很抱歉，但没有单一的“最佳”、“最无信息”或“一刀切”的先验。他们每个人都将一些信息带入模型中。

克尔曼，J. (2011)。中性非信息性和信息性共轭 beta 和 gamma 先验分布。电子统计杂志，5，1450-1470。

Tuyl, F.、Gerlach, R. 和 Mengersen, K. (2008)。贝叶斯-拉普拉斯、杰弗里斯和其他先验的比较。美国统计学家，62（1）：40-44。

其它你可能感兴趣的问题

上一篇Auto.arima 与每日数据：如何捕捉季节性/周期性？下一篇为什么要使用极值理论？