在经典的bootstrap中,通过从您的数据中抽取带有替换的样本,您可以模拟从总体中对数据进行抽样。通过重复这个过程K多次模拟抽取样本的过程,因此,它可以让您评估统计数据的可能变异性估计ϕ(一个函数)来自同一总体的不同样本ϕ^k=ϕ(Xk). 因此,我们正在模拟统计数据的“抽样分布”(抽样过程引起的变异)。
如Rubin (1981)所述,在贝叶斯引导程序中,您正在估计数据的分布X={x1,x2,…,xN}以及统计量估计的后验分布ϕ(X). 这是一个非参数模型,我们假设您的数据点有一个分类分布(可能性)
xi|π∼Cat(π)
对于未知概率,我们假设一个统一的狄利克雷先验π=(π1,π2,…,πN)
π∼Dir(α)
由,其中。通过将其代入贝叶斯定理,我们能够估计概率的后验分布α=(α1,α2,…,αN)α1=α2=⋯=αN=1
p(π|X)∝p(X|π)p(π)
知道概率的后验分布,使我们知道后验预测分布(模型预测的数据分布),
p(x~|X)=∫πp(x~|X,π)p(π|X)dπ
来轻松估计在数据上估计的测试统计量的分布。如您所见,我们没有直接估计的分布,而是我们正在评估来自后验分布的样本的统计量。这就是“模拟参数的后验分布”的意思。这种分布考虑了和数据的可变性。ϕ(x~)ϕϕπX
回答您的第一个问题,这是一个后验分布,因为我们在贝叶斯环境中运行。我们有先验和可能性,通过结合它们我们估计后验分布。我们正在估计概率的后验分布。不同之处在于,在常客设置中,您将无法估计参数的分布,您只能评估样本上的统计量,常客统计集中在克服这个问题上。π
至于你的第二个问题,我相信它在人口和样本之间有什么区别?线。基本上,“人口”在这里可以与数据的“分布”交换使用。从总体中抽取样本,相当于“从”其分布中实现随机变量。这些是统计学与概率论的术语,实际上表示的是同一件事。
您可能也有兴趣阅读是否可以从贝叶斯的角度解释引导程序?线程,以及两篇博文 The Non-parametric Bootstrap as a Bayesian Model和Easy Bayesian Bootstrap in R by Rasmus Bååth,他更详细地讨论了贝叶斯 bootstrap 并提供了许多示例。
作为旁注,Rubin (1981) 自己注意到两个程序之间的差异主要是概念上的,关于我们如何看待结果,因为它们“在推理上非常相似”,并且“在操作上它们非常相似”。该过程略有不同,因为您使用随机权重(从 Dirichlet 均匀分布绘制)而不是对数据进行采样,就像在经典 bootstrap 中一样。结果的解释不同,因为我们考虑了参数的可变性,如上所述。1/n