将多级模型拟合到 R 中的复杂调查数据

机器算法验证 r 混合模式 加权抽样 集群样本
2022-03-11 21:37:58

我正在寻找有关如何在 R 中使用多级模型分析复杂调查数据的建议。我已使用该survey软件包对单级模型中不等的选择概率进行加权,但该软件包不具备多级建模的功能。lme4软件包非常适合多级建模,但我知道没有一种方法可以包含不同聚类级别的权重。Asparouhov (2006)提出了这个问题:

多级模型经常用于分析来自整群抽样设计的数据。然而,此类抽样设计通常在集群级别和个人级别使用不等的选择概率。抽样权重分配在一个或两个级别以反映这些概率。如果在任一级别忽略抽样权重,则参数估计可能会出现很大偏差。

用于两级模型的一种方法是在 MPLUS 中实现的多级伪最大似然 (MPML) 估计器(Asparouhov 等人,?)。Carle (2009)回顾了主要的软件包并就如何进行提出了一些建议:

为了正确地使用复杂的调查数据和设计权重进行 MLM,分析师需要能够包含在程序之外缩放的权重并包含“新”缩放权重而无需自动修改程序的软件。目前,三个主要的传销软件程序允许这样做:Mplus (5.2)、MLwiN (2.02) 和 GLLAMM。不幸的是,HLM 和 SAS 都无法做到这一点。

West 和 Galecki (2013)给出了更新的评论,我将详细引用相关段落:

有时,分析师希望将 LMM 拟合到调查从具有复杂设计的样本中收集的数据集(参见 Heeringa 等人,2010 年,第 12 章)。复杂样本设计的一般特征是将人口划分为多个阶层,从阶层内多阶段选择个体集群,以及集群和最终抽样个体的选择概率不相等。这些不等的选择概率通常会导致构建个体的抽样权重,从而确保在纳入分析时对描述性参数进行无偏估计。这些权重可能会针对调查不答复进一步调整,并校准到已知的人口总数。传统上,在估计回归模型时,分析师可能会考虑采用基于设计的方法来整合这些复杂的抽样特征(Heeringa 等,2010)。最近,统计学家开始探索基于模型的方法来分析这些数据,使用 LMM 将抽样层的固定效应和抽样集群的随机效应结合起来。

开发基于模型的方法来分析这些数据的主要困难是选择合适的方法来合并抽样权重(有关问题的摘要,请参见 Gelman,2007 年)。普费弗曼等人。(1998 年)、Asparouhov 和 Muthen(2006 年)以及 Rabe-Hesketh 和 Skrondal(2006 年)开发了以结合调查权重的方式估计多级模型的理论,以及 Rabe-Hesketh 和 Skrondal(2006 年)、Carle(2009 年)和 Heeringa 等人。(2010 年,第 12 章)介绍了使用当前软件程序的应用程序,但这仍然是统计研究的一个活跃领域。能够拟合 LMM 的软件程序处于实施迄今为止文献中提出的用于结合复杂设计特征的方法的不同阶段,分析人员在将 LMM 拟合到复杂的样本调查数据时需要考虑这一点。有兴趣将 LMM 拟合到从复杂样本调查中收集的数据的分析师将被吸引到能够正确地将调查权重纳入估计程序(HLM、MLwiN、Mplus、xtmixed 和 gllamm)的程序,这与本文中的现有文献一致区域。

这让我想到了我的问题:是否有人有将 LMM 拟合到 R 中复杂调查数据的最佳实践建议?

3个回答

据我所知,如果您确实需要混合模型(例如,如果您关心方差分量),那么您目前无法在 R 中真正做到这一点

的 weights 参数lme4::lmer() 不会做你想要的,因为lmer()将权重解释为精确权重而不是采样权重。与普通线性和广义线性模型相比,您甚至无法使用将采样权重视为混合模型的精确权重的代码获得正确的点估计。

如果您不需要估计方差分量并且只希望模型的多级特征能够获得正确的标准误差,您可以使用survey::svyglm().

WeMix包现在是一个选项,至少对于线性和逻辑多级模型来说是这样与在 Stata 或 MPlus 中运行这些模型相比,它似乎非常慢。

我也面临同样的问题。在过去几天进行了很多搜索后,我发现 BIFIEsurvey 包最接近于分析具有复杂调查数据的多级模型,具有样本和复制权重以及合理的值:https ://cran.r-project.org/web /packages/BIFIEsurvey/index.html但是,该包仅限于两级模型。我还读到“intsvy”包的作者长期计划使“intsvy”能够分析多级模型,但截至今天它仍然不能。如果我可能不小心错过了有关此问题的解决方案的任何进展,如果有人可以分享,我会很高兴。