使用贝叶斯方法或频率论方法是多级建模更简单、更实用还是更方便?

机器算法验证 贝叶斯 多层次分析 常客
2022-03-19 19:36:25

这个社区 wiki 页面中,@probabilityislogic 断言的两次赞成的评论断言“多级建模对于贝叶斯来说绝对更容易,尤其是在概念上。” 这是真的吗?如果是/不是,为什么?

2个回答

我同意马修的观点。我想补充两点意见。

有几种方法可以编写多级模型,但主要的替代方法是水平和组合形式。如您所知,您可以编写一个简单的多级模型: 或为:

Level-1:yi=β0j[i]+β1j[i]xi+εiLevel-2:β0j=γ00+γ10wj+ηj0β1j=γ01+γ11wj+ηj1
yi=γ00+γ10wj[i]+γ01xn+γ11wj[i]xi+ηj[i]0+ηj1xi+εi
在第一种形式中,您以相同的方式对所有系数进行建模,并且在 BUGS、JAGS 或 Stan 中编写贝叶斯模型(几乎)很简单,您可以轻松添加第三层。在使用混合效应软件(PROC MIXED、lmer 等)时,您必须记住,无论何时您试图通过二级预测器来预测斜率的变化,您都必须包括跨级交互项(级别 1 之间的交互和 2 级预测变量)在公式的固定效应部分中,并且仅在微不足道的情况下才容易定义随机效应部分。这就是为什么有人说多级建模和贝叶斯分析之间存在很强的正式关系(参见 Kreft 和 De Leeuw,介绍多级建模,Sage,1998,§1.4.7)。

但是,我经常使用非贝叶斯工具来初步了解并比较结果。此外,我不会说使用 PROC MIXED 或 lmer 是“错误的”或“过时的”

真正的问题是,当二级单元的数量很少时,不能使用频率论方法

几位作者已经强调了这一点,例如 Gelman 和 Hill,Data Analysis Using Regression and Multilevel/Hierachical Models,Cambridge University Press,2007,§16.1(“为什么你应该学习 BUGS”:“当组的数量很少或多级模型很复杂 [...] 可能没有足够的信息来精确估计方差参数”通过频率论方法)或 Raudenbush 和 Bryk,分层线性模型,Sage,2002 年,第 1 章。13(“高级单位的数量可能很少,数据可能不平衡。在这些设置中,完全贝叶斯有明显的优势”。)

Mark L. Bryan 和 Stephen P. Jenkins最近的一篇论文Regression analysis of country effects using multilevel data: a warnary tale , Institute for Social and Economic Research, WP2013-14)提出了蒙特卡罗模拟分析,表明在为了得出可靠的估计,用户需要至少 25 组线性模型和至少 30 组 logit 模型。他们的建议之一是“超越经典(频率论)统计,更多地使用贝叶斯估计和推断方法,因为当国家很少时,它们似乎表现更好。”

贝叶斯多级模型在概念上是令人愉悦的,因为参数的层次结构内置于先前的规范中。考虑就读学校的学生的考试成绩我们想了解学校特定的考试成绩参数,因此,因为我们想使用贝叶斯方法,我们将为每个设置一个先验分布。但是,这将是一个多级模型,因此我们希望/期望学校特定参数相似和/或希望在学校之间共享信息。为了对此建模,我们为每个学校参数分配相同的先验,然后在该超参数上放置一个先验。这给 yijijθjθj{θj}

yijθjπ1(θj) for ischooljθjϕπ2(ϕ)ϕπ3(),

其中是相关分布。在此先验规范和数据似然性的后验中,整体参数将由每个通知,这些参数由每个相关学校内的分数通知。所以为我们提供了一个很好的整体分布来研究。但是也由通过先验通知,因此我们在学校之间共享信息,以便在数据量很少的情况下更好地通知我们。所有这些都是通过前后连接完成的,因此在贝叶斯范式中是非常自然的。{π1,π2,π3}ϕθjϕθjϕ

此外,您先前规范的深度没有限制。如果学校位于国家/地区内的省份内的地区内,则理论上您可以在此先前规范中再添加三个级别。模型的每个新级别都对应于指定的另一个先验。从这个意义上说,多级模型在贝叶斯分析中非常舒适。

在计算简便性方面,如果在整个过程中都选择了共轭先验,那么在大多数情况下,除了 Gibbs 采样之外,还可以计算出这个多级模型。