编辑:我添加了一个简单的例子:$X_i$ 的均值推断。我还稍微澄清了为什么不匹配置信区间的可信区间是不好的。
我,一个相当虔诚的贝叶斯主义者,正处于某种信仰危机之中。
我的问题如下。假设我要分析一些 IID 数据 $X_i$。我会做的是:
首先,提出一个条件模型:$$ p(X|\theta) $$
然后,在 $\theta$ 上选择一个先验: $$ p(\theta) $$
最后,应用贝叶斯规则,计算后验: $p(\theta | X_1 \dots X_n )$ (或一些近似值,如果它应该是不可计算的)并回答我关于 $\theta$ 的所有问题
这是一种明智的方法:如果数据 $X_i$ 的真实模型确实在我的条件“内部”(它对应于某个值 $\theta_0$),那么我可以调用统计决策理论来说明我的方法是可接受(详见罗伯特的“贝叶斯选择”;“所有统计数据”也在相关章节中给出了明确的说明)。
然而,众所周知,假设我的模型是正确的,这是相当傲慢的:为什么自然会整齐地落在我考虑过的模型的盒子里?对于 $\theta$ 的所有值,假设数据 $p_{true}(X)$ 的真实模型不同于 $p(X|\theta)$ 更为现实。这通常被称为“错误指定”的模型。
我的问题是,在这个更现实的错误指定的情况下,我没有任何好的论据来证明贝叶斯(即:计算后验分布)与简单地计算最大似然估计量(MLE):
$$ \hat \theta_{ML} = \arg \max_\theta [ p(X_1 \dots X_n |\theta) ] $$
事实上,根据Kleijn, vd Vaart (2012)的说法,在错误指定的情况下,后验分布:
收敛为 $n\rightarrow \infty $ 到以 $\hat \theta_{ML} $ 为中心的狄拉克分布
没有正确的方差(除非两个值恰好相同),以确保 $\theta$ 的后验置信区间的可信区间匹配。(请注意,虽然置信区间显然不是贝叶斯主义者过度关心的事情,但这在定性上意味着后验分布本质上是错误的,因为这意味着它的可信区间没有正确的覆盖范围)
因此,我们为没有额外的属性付出了计算溢价(贝叶斯推理通常比 MLE 更昂贵)
因此,最后,我的问题是:当模型被错误指定时,是否有任何论据,无论是理论上的还是经验上的,都可以使用贝叶斯推断而不是更简单的 MLE 替代方案?
(由于我知道我的问题经常不清楚,如果您有不明白的地方请告诉我:我会尝试改写它)
编辑:让我们考虑一个简单的例子:在高斯模型下推断 $X_i$ 的平均值(已知方差 $\sigma$ 以进一步简化)。我们考虑一个高斯先验:我们表示 $\mu_0$ 是先验均值,$\beta_0$ 是先验的逆方差。令 $\bar X$ 为 $X_i$ 的经验平均值。最后,注意:$\mu = (\beta_0 \mu_0 + \frac{n}{\sigma^2} \bar X) / (\beta_0 + \frac{n}{\sigma^2} )$。
后验分布为:
$$ p(\theta |X_1 \dots X_n)\; \propto\; \exp\!\Big( - (\beta_0 + \frac{n}{\sigma^2} ) (\theta - \mu)^2 / 2\Big) $$
在正确指定的情况下(当 $X_i$ 确实具有高斯分布时),这个后验具有以下很好的属性
如果 $X_i$ 是从分层模型生成的,其中它们的共享均值是从先验分布中挑选出来的,那么后置可信区间具有精确的覆盖范围。以数据为条件,$\theta$ 处于任何区间的概率等于后验归因于该区间的概率
即使先验不正确,可信区间在限制 $n\rightarrow \infty$ 中也有正确覆盖,其中先验对后验的影响消失
后验进一步具有良好的频率特性:任何从后验构造的贝叶斯估计量都保证是可接受的,后验均值是均值的有效估计量(在 Cramer-Rao 意义上),可信区间是渐近的置信区间。
在指定错误的情况下,这些属性中的大多数都不受理论的保证。为了修正想法,让我们假设 $X_i$ 的真实模型是它们是学生分布。我们可以保证(Kleijn 等人)的唯一属性是后验分布集中在 $X_i$ 在限制 $n \rightarrow \infty$ 中的真实均值上。一般来说,所有的覆盖属性都会消失。更糟糕的是,一般来说,我们可以保证,在这个限制下,覆盖属性从根本上是错误的:后验分布将错误的概率归因于空间的各个区域。