是否可以从贝叶斯的角度解释引导程序?

机器算法验证 贝叶斯 引导程序
2022-02-14 10:38:49

好吧,这是一个让我彻夜难眠的问题。

引导过程可以解释为近似于某些贝叶斯过程(贝叶斯引导程序除外)吗?

我真的很喜欢对统计数据的贝叶斯“解释”,我发现它非常连贯且易于理解。然而,我也有一个引导程序的弱点,它是如此简单,但在许多情况下都能提供合理的推论。但是,如果我知道 bootstrap 在某种意义上近似于后验分布,我会对 bootstrap 更满意。

我知道“贝叶斯引导程序”(Rubin,1981),但从我的角度来看,引导程序的版本与标准引导程序一样有问题。问题是您在进行经典和贝叶斯自举时所做的真正特殊的模型假设,也就是说,分布的可能值只是我已经看到的值。这些奇怪的模型假设如何仍然产生引导程序产生的非常合理的推论?我一直在寻找研究引导程序属性的文章(例如 Weng,1989),但我没有找到任何我满意的明确解释。

参考

唐纳德·B·鲁宾 (1981)。贝叶斯引导程序。 安。统计学家。第 9 卷,第 1 期,130-134。

翁仲星 (1989)。关于贝叶斯自举均值的二阶渐近性质。 统计年鉴,卷。17,第 2 期,第 705-710 页。

3个回答

Hastie、Tibshirani 和 Friedman 的《统计学习的要素》第 8.4 节是“Bootstrap 和贝叶斯推理之间的关系”。这可能正是您正在寻找的。我相信这本书可以通过斯坦福网站免费获得,尽管我手头没有链接。

编辑:

这是本书的链接,作者已在网上免费提供:

http://www-stat.stanford.edu/~tibs/ElemStatLearn/

在第 272 页,作者写道:

从这个意义上说,自举分布代表了我们参数的(近似)非参数、非信息性后验分布。但是这种引导分布是轻松获得的——无需正式指定先验,也无需从后验分布中采样。因此,我们可以将引导分布视为“穷人的”贝叶斯后验。通过扰动数据,bootstrap 近似于扰动参数的贝叶斯效应,并且执行起来通常要简单得多。

在这个交叉验证的问题中发现了另一个难题,它提到了Dvoretzky-Kiefer-Wolfowitz 不等式,“表明 [...] 经验分布函数以指数速度均匀收敛到真实分布函数。”

因此,总而言之,非参数引导程序可以被视为一种渐近方法,它产生“我们参数的(近似)非参数、非信息性后验分布”,并且随着样本数量的增加,这种近似会“以指数级的速度”变得更好。

这是我在该主题上看到的最新论文:

@article{efr13bay,
author={Efron, Bradley},
title={Bayesian inference and the parametric bootstrap},
journal={Annals of Applied Statistics},
volume=6,
number=4,
pages={1971-1997},
year=2012,
doi={10.1214/12-AOAS571},
abstract={Summary: The parametric bootstrap can be used for the efficient
    computation of Bayes posterior distributions. Importance sampling formulas
    take on an easy form relating to the deviance in exponential families and
    are particularly simple starting from Jeffreys invariant prior. Because of
    the i.i.d. nature of bootstrap sampling, familiar formulas describe the
    computational accuracy of the Bayes estimates. Besides computational
    methods, the theory provides a connection between Bayesian and frequentist
    analysis. Efficient algorithms for the frequentist accuracy of Bayesian
    inferences are developed and demonstrated in a model selection example.},
keywords={Jeffreys prior; exponential families; deviance; generalized linear
    models},
classmath={*62F15 (Bayesian inference)
62F40 (Resampling methods)
62J12 (Generalized linear models)
65C60 (Computational problems in statistics)}}

我也被引导和贝叶斯定理所吸引,但在我从贝叶斯的角度来看之前,我无法理解引导的合理性。然后 - 正如我在下面解释的 - 引导分布可以被视为贝叶斯后验分布,这使得引导背后的(a?)基本原理显而易见,并且还具有澄清所做假设的优势。在https://arxiv.org/abs/1803.06214(第 22-26 页)中有更多关于以下论点和假设的详细信息。

例如,在http://woodm.myweb.port.ac.uk/SL/resample.xlsx的电子表格上设置(单击屏幕底部的引导选项卡),假设我们有9 个测量值的样本,平均值为 60。当我使用电子表格生成 1000 个重新采样并从该样本中替换并将平均值四舍五入到最接近的偶数时,这些平均值中有 82 个是 54。自举的想法是我们将样本用作“假装”总体,以查看 9 个样本的均值可能有多可变,因此这表明样本均值低于总体均值 6 的概率(在这种情况下,假装总体基于平均值为 60 的样本)为 8.2%。对于重采样直方图中的其他条,我们可以得出类似的结论。

现在让我们假设事实是真实总体的平均值是 66。如果是这样,我们对样本平均值为 60(即数据)的概率的估计是 8.2%(使用上面段落中的结论记住60 比假设的总体平均值 66 低 6)。让我们把它写成

P(数据给定平均值=66)= 8.2%

该概率对应于重采样分布上的 x 值为 54。同样的论点适用于从 0、2、4 ... 100 的每个可能的总体平均值。在每种情况下,概率都来自重采样分布 - 但这种分布反映了 60 的平均值。

现在让我们应用贝叶斯定理。所讨论的测量值只能取 0 到 100 之间的值,因此四舍五入到最接近的偶数,总体平均值的可能性为 0、2、4、6、...100。如果我们假设先验分布是平坦的,则这些中的每一个都有 2% 的先验概率(到 1 dp),贝叶斯定理告诉我们

P(PopMean=66 给定数据)= 8.2%*2%/P(数据)

在哪里

P(数据) = P(PopMean=0给定数据)*2%+ P(PopMean=2给定数据)*2% + ... + P(PopMean=100给定数据)*2%

我们现在可以取消 2% 并记住概率之和必须为 1,因为概率只是来自重采样分布的概率。这给我们的结论是

P(PopMean=66)=8.2%

请记住,8.2% 是对应于 54(而不是 66)的重采样分布的概率,后验分布只是反映样本均值(60)的重采样分布。此外,如果重采样分布在不对称是随机的意义上是对称的——就像在这种情况和许多其他情况下一样,我们可以将重采样分布视为与后验概率分布相同。

这个论点做出了各种假设,主要是先验分布是均匀的。这些在上面引用的文章中有更详细的说明。