在这个社区 wiki 页面中,@probabilityislogic 断言的两次赞成的评论断言“多级建模对于贝叶斯来说绝对更容易,尤其是在概念上。” 这是真的吗?如果是/不是,为什么?
使用贝叶斯方法或频率论方法是多级建模更简单、更实用还是更方便?
我同意马修的观点。我想补充两点意见。
有几种方法可以编写多级模型,但主要的替代方法是水平和组合形式。如您所知,您可以编写一个简单的多级模型: 或为:
但是,我经常使用非贝叶斯工具来初步了解并比较结果。此外,我不会说使用 PROC MIXED 或 lmer 是“错误的”或“过时的”
真正的问题是,当二级单元的数量很少时,不能使用频率论方法。
几位作者已经强调了这一点,例如 Gelman 和 Hill,Data Analysis Using Regression and Multilevel/Hierachical Models,Cambridge University Press,2007,§16.1(“为什么你应该学习 BUGS”:“当组的数量很少或多级模型很复杂 [...] 可能没有足够的信息来精确估计方差参数”通过频率论方法)或 Raudenbush 和 Bryk,分层线性模型,Sage,2002 年,第 1 章。13(“高级单位的数量可能很少,数据可能不平衡。在这些设置中,完全贝叶斯有明显的优势”。)
Mark L. Bryan 和 Stephen P. Jenkins最近的一篇论文(Regression analysis of country effects using multilevel data: a warnary tale , Institute for Social and Economic Research, WP2013-14)提出了蒙特卡罗模拟分析,表明在为了得出可靠的估计,用户需要至少 25 组线性模型和至少 30 组 logit 模型。他们的建议之一是“超越经典(频率论)统计,更多地使用贝叶斯估计和推断方法,因为当国家很少时,它们似乎表现更好。”
贝叶斯多级模型在概念上是令人愉悦的,因为参数的层次结构内置于先前的规范中。考虑就读学校的学生的考试成绩。我们想了解学校特定的考试成绩参数,因此,因为我们想使用贝叶斯方法,我们将为每个设置一个先验分布。但是,这将是一个多级模型,因此我们希望/期望学校特定参数相似和/或希望在学校之间共享信息。为了对此建模,我们为每个学校参数分配相同的先验,然后在该超参数上放置一个先验。这给
其中是相关分布。在此先验规范和数据似然性的后验中,整体参数将由每个通知,这些参数由每个相关学校内的分数通知。所以为我们提供了一个很好的整体分布来研究。但是也由通过先验通知,因此我们在学校之间共享信息,以便在数据量很少的情况下更好地通知我们。所有这些都是通过前后连接完成的,因此在贝叶斯范式中是非常自然的。
此外,您先前规范的深度没有限制。如果学校位于国家/地区内的省份内的地区内,则理论上您可以在此先前规范中再添加三个级别。模型的每个新级别都对应于指定的另一个先验。从这个意义上说,多级模型在贝叶斯分析中非常舒适。
在计算简便性方面,如果在整个过程中都选择了共轭先验,那么在大多数情况下,除了 Gibbs 采样之外,还可以计算出这个多级模型。