机器算法验证 - 如果我们从字面上看贝叶斯模型，可信区间的覆盖概率 - 吾爱随笔录 - 问答

如果我们从字面上看贝叶斯模型，可信区间的覆盖概率

机器算法验证贝叶斯数理统计置信区间推理

2022-03-31 08:41:44

假设我有一个具有适当先验的贝叶斯模型 $\pi$ , 可能性 $L$ , 数据分布 $p(x|\theta)$ （认为 $\theta$ 是一个标量）和样本值的向量 $x$ ：

p (θ | x) = \frac{π (θ) L (θ | x)}{p (x)}

$p(\theta|x) = \frac{\pi(\theta)L(\theta|x)}{p(x)}$

如果我认真对待我的模型作为数据生成过程的分层描述，

θ \sim π

$\theta \sim \pi$

x \sim p (θ)

$x\sim p(\theta)$

那么 95% 的可信区间（由后验分布构造）多久包含一次生成的 $\theta$ ?

此外，此覆盖声明是否会以收集的数据为条件，或者它是否是无条件的，因此容易受到针对置信区间的通常相关子集参数的影响？

2个回答

由于没有普遍接受/独特的方式来指定（无信息的）先验，并且不同的先验会导致不同的可信区间，因此贝叶斯 CI 的覆盖范围显然不是固定的，而是取决于您选择的先验，与“真实”参数值有关。

它通常还取决于数据，特别是数据的大小——在低数据情况下，先验支配 CI，上述后果是对覆盖范围的强大先验影响。当转向大数据/渐近时，贝叶斯 CI 和频率论 CI 通常会变得越来越相似，包括它们的覆盖属性。

我问了一个类似的问题： Methods for testing a Bayesian method's software implementation，并从@jaradniemi 得到了这个答案：

贝叶斯不会失去基于相对频率的概率解释。特别是，如果您定义此过程：

从前面模拟，

然后使用先前的那些值从模型中进行模拟，并且

使用相同的先验估计参数。

然后，您的可信区间应具有适当的频率覆盖率，即 95% 的区间应在 95% 的分析中包含真实参数，并重复重复该过程。

我认为他是对的。您可以偏离贝叶斯概率的相对频率概念，但您不会自动失去它。如果您正在生成数据，那么您肯定没有丢失它。

关于您关于conditional vs unconditional的问题，虽然每个单独的可信区间都将以数据为条件，但基于相对频率的覆盖范围将是无条件的，因为您正在对数据的抽取进行平均。您还可以在网上搜索“贝叶斯方法的频率特性”并获得不少点击率。

其它你可能感兴趣的问题

上一篇多重比较是探索性分析的问题吗？下一篇在什么情况下会使用近似贝叶斯计算而不是贝叶斯推理？