为什么 emmeans 包方式与常规方式不同?

机器算法验证 混合模式 lme4-nlme 缺失数据 lsmeans
2022-04-18 09:32:19

我正在使用lme4包分析缺少数据的数据集,以拟合混合模型并使用包emmeans计算拟合均值。

我感觉它与丢失的数据有关,但为什么emmeans显示的方法与直接计算组的平均值并删除 NA 不同?

如果数据集与所有存在的点保持平衡,这些点是否相同?

这很重要,因为进行通常的成对 t 检验使用常规均值/标准差,而 emmeans 使用混合模型,我得到不同的结果。

2个回答

您确实是对的,可以从您拥有的缺失数据中解释这种差异。特别是,当您的缺失数据属于随机缺失类型时,观察到的数据不是您的目标人群的代表性样本。在这种情况下,简单的样本均值会产生偏差,不应该被信任。

相反,如果您的模型是正确/灵活指定的,则混合模型将在随机缺失的情况下为您提供正确的估计和推断。

因此,您应该更好地相信emmeans根据您拟合的混合模型报告的内容。

估计边际均值 (EMM) 和普通边际数据均值 (OMM)的根本区别在于 OMM 汇总数据,而 EMM 汇总模型因此,如果您为数据拟合不同的模型,则 EMM 可能会有所不同。EMM 不仅仅是一回事。

更准确地说,EMM 涉及三个实体:

  • 数据模型
  • 由预测变量参考值的所有组合组成的网格。通常,对于因素,参考值是这些因素的水平;在数字预测变量的情况下,这些预测变量的均值。
  • 加权方案(通常等权重)

鉴于这些,EMMs 是通过首先使用给定模型获得参考值的每个组合的预测来获得的;然后根据加权方案获得这些预测的边际平均值。

在使用相等权重的情况下,使用lm()(或等效)拟合模型,所有预测变量都是因子,设计是平衡的,并且模型包含这些因子之间的所有交互作用,则预测值是单元格均值数据,EMM 与 OMM 相同。然而,与这些问题的任何偏差——例如,不相等的权重、不使用最小二乘法、没有平衡的数据、有一些数值预测变量、没有模型中的所有交互——都可能导致 EMM 与 OMM 不同。

针对此线程中的其他答案或评论的一些进一步说明:

  • 对于空单元格,通常具有所有交互的模型将无法估计所有网格值,导致部分或全部 EMM 不可估计(但请参阅下面的例外)。拟合排除一个或多个交互作用的不同模型可能导致网格值是可估计的,因此 EMM 是可估计的。

  • 观察是否随机丢失、不是随机丢失、完全随机丢失等问题是一个建模问题(或者,根据一些评论,您是否信任您使用的模型)。如果模型[不]适当或[不]值得信赖,则生成的 EMM 也将[不]适当或[不]值得信赖。一些缺失假设允许使用多种插补技术,这些技术可能(或可能不)允许网格均值是可估计的,并且将会;相应地影响 EMM。

  • 替代加权方案(例如与边际频率成比例的加权)显然也会影响 EMM。对任何不可估计的网格组合赋予零权重的加权方案将提供可估计的 EMM,否则它们将是不可估计的。特别是,在(所有因素、所有交互、最小二乘)情况下,根据单元频率加权将产生等于 OMM 的 EMM。