对 MICE 进行多组 SEM 分析的多重插补有疑问?(包括调查权重)

机器算法验证 r 结构方程建模 多重插补 老鼠 加权数据
2022-04-07 08:11:32

我计划进行多组 SEM 分析。我收集了调查数据并计算了调查权重。我的一些变量有项目无响应(主要是 5% 左右的缺失)。

我决定使用多重插补来处理丢失的数据。首先,我使用LittleMCAR()测试来检查缺失机制。我也用过TestMCARNormality()Jamshidian 等人的。它对协方差的同质性进行了 MCAR 的非参数检验。后者没有拒绝 MCAR,但LittleMCAR测试拒绝了 (p=8.3%)。因为我假设我的数据是 MAR,所以我的数据分为男性/女性,我LittleMCAR()对每个子组应用了测试。这一次 MCAR 在两个亚组中都没有被拒绝。

我读过(参见:Enders, C., & Gottschall, A. (2011). Multiple Imputation Strategies for Multiple Group Structural Equation Models. Structural Equation Modeling: A Multisubject Journal, 35-54.)如果我打算这样做多组 SEM 分析,我应该对每个组进行单独的多重插补(在这种情况下:男性/女性)。R 包MICE将用于插补。

现在我的问题:

1.) 应该使用来自 MICE 的默认“大规模插补”预测矩阵 predictorMatrix = (1 - diag(1, ncol(data)),它使用数据集中的所有变量作为插补模型的预测变量,或者我应该使用quickpred()生成一个predictormatrixquickpred使用一些标准(如预测变量和目标变量的相关性)为每个变量选择一组预测变量,这些变量将被估算。

quickpred(datensatz_gender_0, include=c("weight_trunc"),exclude=c("ID","X","gender"),mincor = 0.1)

2.) 我应该在预测矩阵中包含调查权重吗?

插补后,插补数据集列表将提供给survey()-包(用于加权目的),然后我将使用lavaan来指定我的模型,该模型将使用插补数据调查对象。然后将这个 lavaan 模型传递给lavaan.survey(),因此我可以将调查权重与估算数据一起使用。据我所知,lavaan.survey然后将汇总结果...

如果有人能给我这个问题的答案,那就太好了。谢谢!

2个回答

(我是lavaan.survey的创建者)

正如 Stas 已经指出的那样,组合(多重插补 * 复杂抽样)可能是一件棘手的事情。主要论文是Kott (1995)Kim, Brick & Fuller (2006)

以下是一些注意事项:

  • 正如 Stas 所提到的,所有常见的 MI 最佳实践都适用。考虑到以下情况,我最初可能不会使用 quickpred() 。它有可能会丢弃您实际需要的东西。不过,进行一些合理的子选择可能会有所帮助。

  • 如果您有权,则需要将这些权重作为协变量包含在插补模型中(Kim et al. 2006, p. 518)。由于您正在进行多组分析(“域估计”),因此您还需要在插补模型中包括组虚拟变量和权重之间的交互(第 519 页)。

  • 如果你有阶层和集群,事情就会变得更加复杂。插补模型需要考虑观察结果之间的相关性。否则,您将得到错误的标准错误(Kim et al. 2006: p. 514)。一种基于模型的方法可能是在贝叶斯插补模型中将层作为固定效应和集群作为随机效应。一种更像调查的方法是遵循 Stas 的建议,并使用尊重地层和集群的重采样程序。例如,在引导和仅使用集群的情况下,您将对随机集群 (PSU) 进行替换,然后在抽样集群中对个人 (2SUS) 进行替换。

Stas 的重采样建议的另一个优点是,即使没有地层和聚类,您也将考虑到插补模型参数的不确定性,包括由权重引起的参数。我不确定默认情况下老鼠是否准确地做到了这一点。这通常是方差中一个相对较小的附加项,但它可能会有所作为。

一旦你有了多重插补数据集,你可以将它们作为一个 imputationList 传递给 lavaan.survey(参见 JSS lavaan.survey 论文)。然后,lavaan.survey 将为您进行所有常见的 MI 池计算。因此,您无需为每个插补单独手动拟合模型!

希望这可以帮助,

一切顺利,丹尼尔

PS 感谢 Stas 和 @Gaming_dude 让我注意到这篇文章。我很乐意继续对话(在这里,lavaan Google 讨论组、推特、电子邮件……)!

如果我在我的项目中处理这个问题,我很感激我不必这样做,这就是我会做的。

  1. 采取尊重我的调查设计的调查引导样本——参见 Rao 和 Wu 1988。
  2. 对于每个 bootstrap 复制,将缺失的数据估算一次,参见 Shao 和 Sitter 1996。
  3. 在每个插补中,遵循 SEM 插补的最佳实践,这可能意味着:对男性和女性分别进行插补,以便为后续的多组分析保留组内的独特特征;将 SEM 模型中的所有变量作为插补模型中的预测变量包括在内;将调查设计变量(分层、聚类、权重,可能是权重的非线性函数)纳入插补模型。
  4. lavaan.survey使用与当前引导复制对应的权重运行您的分析。
  5. 重复 1-4 以获得设计一致、插补调整的标准误差。

我不知道测试会发生什么,比如 SEM 人如此疯狂的拟合优度(无论如何总是拒绝)。lavaan.surveyJSS(Oberski 2014)中的技术描述来看,有一种方法可以通过方差估计步骤 5 来lavaan.survey估计估计方程的方差Γ然后形成所有这些传统的测试。不过,这是否可行以及如何可行超出了我的范围。我不太清楚将复制权重与插补对齐的机制,但它可能在某个地方存在。

参考:

奥伯斯基 2014:http ://www.citeulike.org/user/ctacmo/article/13599829

饶和吴 1988:http ://www.citeulike.org/user/ctacmo/article/582039

邵和西特 1996:http ://www.citeulike.org/user/ctacmo/article/1269394