如何识别异常值并对 lme4 模型进行模型诊断?

机器算法验证 混合模式 lme4-nlme 异常值 诊断 杠杆作用
2022-03-11 14:46:57

我需要在模型中识别异常值和高杠杆点,并执行模型诊断lme4对于异常值和高杠杆点,简单地制作一个图来进行视觉检查会很好,但还不够。我有 10,800 个数据点,需要通过一些分析或计算测试将每个点标记为异常值/高杠杆或非异常值/高杠杆。 在识别出异常值/高杠杆点后,我将通过一个单独的过程来决定是否从数据集中排除这些点。

除了上面提到的自动识别之外,点的排除将考虑对每个观察的原始数据源(录音)的事先详细分析。在这里,我将这个过程称为“选择性删除”。

我还需要了解我的异常值是否应该基于“边际”或“条件”残差,以及我的杠杆率是否应该基于固定或固定加随机效应。对于“边际”和“条件”的定义,以及杠杆的潜在定义,我正在关注线性混合模型的诊断和治疗,Singer 等人,2013 年

即,使用形式的混合模型......

y=Xβ+Zb+e
eN(0,σ2I)
bN(0,G)
在哪里G是一个对称的正定矩阵。边际,我的意思是形式的残差
ζ=yE[y]=yXβ
通过条件,我的意思是形式的残差:
e=yXβZb
我的问题是:

  1. 如何通过基于模型 的自动化程序识别异常值。lme4
  2. 是否应使用边际残差或条件残差来识别选择性删除的候选者。
  3. 应该使用什么样的残差来评估正态性、线性、同方差性等。
  4. 如何识别高杠杆点以进行选择性删除,以及是否使用来自固定效应或所有效应的杠杆(参见Singer 等人,上文)。
  5. 如何测试它b分布为N(0,G),即一般多元正态?这仅仅是通过查看随机效应的 QQ 图来完成的吗?如果什么G有协方差,即非零非对角项?查看每个随机效应的一维 QQ 图是否仍然足以评估这种类型的正态性?还是需要某种转换?
1个回答

(这开始是一个评论,但似乎太长了。)

这个问题可能没有得到应有的关注,因为它非常广泛(除其他事项外,您在这里提出了 5 个单独的问题)。几个答案:

  • 条件残差和边际残差只是意味着不同的东西,我不确定这里是否有“正确答案”——你只是在问不同类型的异常值/杠杆。一般来说,条件残差(即re.form=NULL,或默认值,in lme4)似乎更有意义。
  • 请注意,您获得的许多影响度量(例如,通过hatvalues.merMod(),见下文)将取决于随机效应的估计方差 - 协方差矩阵这与您是否在条件模式/BLUP 上进行调节的问题不同。如果您不想以这些估计为条件,则必须 (1) 假设方差-协方差参数估计的多元正态性 (ugh) 或 (2) 进行某种参数引导 (double-ugh) .
  • 如果 (G) LMM 涉及反转大型矩阵,许多标准影响测量会更加困难——这并不总是可行的。influence.ME软件包通过半蛮力方法完成了很多工作:

    影响()函数迭代地修改混合效应模型以抵消一组数据对参数的影响,并返回返回[原文如此]这些迭代修改模型的固定参数。

还要注意有影响的观察和有影响的群体之间的区别,其中任何一个都可能是有趣的。

  • lme4包确实通过 提供了一个帽子矩阵(或其对角线)?hatvalues.merMod,因此您可以使用它们来计算一些标准的影响度量。
  • 就 BLUP/条件模式的边际 QQ 图而言:如果BLUP/条件模式是多元正态分布,那么单变量分布也是如此。对立成立(如果单变量分布不好,那么多元分布就不好),但不一定相反(如果单变量分布看起来不错,多元分布可能仍然很差),但是 IMO 你必须工作得很好很难构建这样的例子。
  • 对随机效应的错误指定有正式的测试,例如 Abad 等人。2010 年生物统计学(见下面的完整引文)。不知道它在哪里实施。
  • 最后,您链接的会议论文中似乎已经讨论了很多您想要的内容(参考下文)。为什么不直接画出他们建议的图并选择一个截止点(例如±1.96σ) 从它们中识别异常值?

Abad、Ariel Alonso、Saskia Litière 和 Geert Molenberghs。“测试广义线性混合模型中的错误规范。” 生物统计学11,没有。4(2010 年 10 月 1 日):771–86。doi:10.1093/biostatistics/kxq019。

Julio M. Singer、Juvencio S. Nobre 和 Francisco MM Rocha。“线性混合模型的诊断和治疗”,5486。香港,2013 年。http: //2013.isiproceedings.org/Files/CPS203-P28-S.pdf