如果我们从字面上看贝叶斯模型,可信区间的覆盖概率

机器算法验证 贝叶斯 数理统计 置信区间 推理
2022-03-31 08:41:44

假设我有一个具有适当先验的贝叶斯模型π, 可能性L, 数据分布p(x|θ)(认为θ是一个标量)和样本值的向量x

p(θ|x)=π(θ)L(θ|x)p(x)

如果我认真对待我的模型作为数据生成过程的分层描述,

θπ
xp(θ)

那么 95% 的可信区间(由后验分布构造)多久包含一次生成的θ?

此外,此覆盖声明是否会以收集的数据为条件,或者它是否是无条件的,因此容易受到针对置信区间的通常相关子集参数的影响?

2个回答

由于没有普遍接受/独特的方式来指定(无信息的)先验,并且不同的先验会导致不同的可信区间,因此贝叶斯 CI 的覆盖范围显然不是固定的,而是取决于您选择的先验,与“真实”参数值有关。

它通常还取决于数据,特别是数据的大小——在低数据情况下,先验支配 CI,上述后果是对覆盖范围的强大先验影响。当转向大数据/渐近时,贝叶斯 CI 和频率论 CI 通常会变得越来越相似,包括它们的覆盖属性。

我问了一个类似的问题: Methods for testing a Bayesian method's software implementation,并从@jaradniemi 得到了这个答案:

贝叶斯不会失去基于相对频率的概率解释。特别是,如果您定义此过程:

  1. 从前面模拟,
  2. 然后使用先前的那些值从模型中进行模拟,并且
  3. 使用相同的先验估计参数。

然后,您的可信区间应具有适当的频率覆盖率,即 95% 的区间应在 95% 的分析中包含真实参数,并重复重复该过程。

我认为他是对的。您可以偏离贝叶斯概率的相对频率概念,但您不会自动失去它。如果您正在生成数据,那么您肯定没有丢失它。

关于您关于conditional vs unconditional的问题,虽然每个单独的可信区间都将以数据为条件,但基于相对频率的覆盖范围将是无条件的,因为您正在对数据的抽取进行平均。您还可以在网上搜索“贝叶斯方法的频率特性”并获得不少点击率。