使用多重插补时如何组合混合效应模型的方差分量的置信区间

机器算法验证 造型 置信区间 混合模式 数据插补
2022-01-26 03:39:50

多重插补 (MI) 的逻辑是对缺失值进行插补,而不是一次,而是几次(通常 M=5)次,从而得到 M 个完整的数据集。然后使用完整数据方法分析 M 个完整的数据集,在该方法上,使用 Rubin 公式将 M 个估计值及其标准误差组合起来,以获得“总体”估计值及其标准误差。

到目前为止很好,但是当涉及混合效应模型的方差分量时,我不确定如何应用这个配方。方差分量的采样分布是不对称的 - 因此不能以典型的“估计 ± 1.96*se(估计)”形式给出相应的置信区间。出于这个原因,R 包 lme4 和 nlme 甚至不提供方差分量的标准误差,而只提供置信区间。

因此,我们可以对数据集执行 MI,然后在对 M 个完整数据集拟合相同的混合效应模型后,获得每个方差分量的 M 个置信区间。问题是如何将这 M 个区间组合成一个“整体”置信区间。

我想这应该是可能的——一篇文章的作者(yucel & demirtas (2010) Impact of non-normal random effects on inference by MI)似乎已经做到了,但他们没有具体解释是如何做到的。

任何提示将非常有义务!

干杯,韩国

3个回答

这是一个很好的问题!不确定这是一个完整的答案,但是,我删除这几行以防万一。

Yucel 和 Demirtas (2010) 似乎参考了 JCGS 上发表的一篇较早的论文,具有缺失值的多元线性混合效应模型的计算策略,该论文使用混合 EM/Fisher 评分方法来生成基于可能性的 VC 估计. 它已在 R 包mlmmm中实现。但是,我不知道它是否会产生 CI。

否则,我肯定会检查WinBUGS程序,该程序主要用于多级模型,包括那些缺少数据的模型。我似乎记得它只有在你的 MV 在响应变量中才有效,而不是在协变量中,因为我们通常必须指定完整的条件分布(如果 MV 存在于自变量中,这意味着我们必须先于丢失的 X,这将被视为 WinBUGS 估计的参数...)。它似乎也适用于 R,如果我在 r-sig-mixed、lme、lmer、PROC MIXED 中的缺失数据上引用以下线程。此外, MLwiN软件可能值得一看。

上面的重复评论:

我不确定是否存在针对此问题的适当分析解决方案。我查看了一些额外的文献,但是这个问题到处都被优雅地忽略了。我还注意到 Yucel & Demirtas(在我提到的文章中,第 798 页)写道:

这些多重估算数据集用于估计模型 […] 使用 R 包lme4导致 10 组 (beta, se(beta)), (sigma_b, se(sigma_b)) 然后使用定义的 MI 组合规则组合鲁宾。

似乎他们使用了某种捷径来估计方差分量的 SE(这当然是不合适的,因为 CI 是不对称的),然后应用了经典公式。

免责声明:这个想法可能是愚蠢的,我不会假装理解我所提议的理论含义。

建议 你为什么不简单地估算 100 个(我知道你通常做 5 个)数据集,运行 lme4 或 nmle,得到置信区间(你有 100 个)然后:

使用较小的区间宽度(例如 range / 1000 或其他值),在每个参数的可能值范围内进行测试,并仅包括出现在 100 个 CI 中的至少 95 个中的那些小区间。然后,您将获得置信区间的蒙特卡洛“平均值”。

我确信这种方法存在问题(或者可能是理论问题)。例如,您最终可能会得到一组不相交的间隔。根据您的领域,这可能是也可能不是坏事。请注意,只有当您至少有两个完全不重叠的置信区间,这些置信区间被覆盖率低于 95% 的区域隔开时,这才有可能。

您还可以考虑更接近贝叶斯处理缺失数据的方法,以获得一个后置可信区域,这肯定会比我的临时建议更好地形成并且在理论上得到更多支持。