假设我有一个具有适当先验的贝叶斯模型, 可能性, 数据分布(认为是一个标量)和样本值的向量:
如果我认真对待我的模型作为数据生成过程的分层描述,
那么 95% 的可信区间(由后验分布构造)多久包含一次生成的?
此外,此覆盖声明是否会以收集的数据为条件,或者它是否是无条件的,因此容易受到针对置信区间的通常相关子集参数的影响?
假设我有一个具有适当先验的贝叶斯模型, 可能性, 数据分布(认为是一个标量)和样本值的向量:
如果我认真对待我的模型作为数据生成过程的分层描述,
那么 95% 的可信区间(由后验分布构造)多久包含一次生成的?
此外,此覆盖声明是否会以收集的数据为条件,或者它是否是无条件的,因此容易受到针对置信区间的通常相关子集参数的影响?
由于没有普遍接受/独特的方式来指定(无信息的)先验,并且不同的先验会导致不同的可信区间,因此贝叶斯 CI 的覆盖范围显然不是固定的,而是取决于您选择的先验,与“真实”参数值有关。
它通常还取决于数据,特别是数据的大小——在低数据情况下,先验支配 CI,上述后果是对覆盖范围的强大先验影响。当转向大数据/渐近时,贝叶斯 CI 和频率论 CI 通常会变得越来越相似,包括它们的覆盖属性。
我问了一个类似的问题: Methods for testing a Bayesian method's software implementation,并从@jaradniemi 得到了这个答案:
贝叶斯不会失去基于相对频率的概率解释。特别是,如果您定义此过程:
- 从前面模拟,
- 然后使用先前的那些值从模型中进行模拟,并且
- 使用相同的先验估计参数。
然后,您的可信区间应具有适当的频率覆盖率,即 95% 的区间应在 95% 的分析中包含真实参数,并重复重复该过程。
我认为他是对的。您可以偏离贝叶斯概率的相对频率概念,但您不会自动失去它。如果您正在生成数据,那么您肯定没有丢失它。
关于您关于conditional vs unconditional的问题,虽然每个单独的可信区间都将以数据为条件,但基于相对频率的覆盖范围将是无条件的,因为您正在对数据的抽取进行平均。您还可以在网上搜索“贝叶斯方法的频率特性”并获得不少点击率。