我需要在模型中识别异常值和高杠杆点,并执行模型诊断lme4
。对于异常值和高杠杆点,简单地制作一个图来进行视觉检查会很好,但还不够。我有 10,800 个数据点,需要通过一些分析或计算测试将每个点标记为异常值/高杠杆或非异常值/高杠杆。 在识别出异常值/高杠杆点后,我将通过一个单独的过程来决定是否从数据集中排除这些点。
除了上面提到的自动识别之外,点的排除将考虑对每个观察的原始数据源(录音)的事先详细分析。在这里,我将这个过程称为“选择性删除”。
我还需要了解我的异常值是否应该基于“边际”或“条件”残差,以及我的杠杆率是否应该基于固定或固定加随机效应。对于“边际”和“条件”的定义,以及杠杆的潜在定义,我正在关注线性混合模型的诊断和治疗,Singer 等人,2013 年。
即,使用形式的混合模型......
- 如何通过基于模型 的自动化程序识别异常值。
lme4
- 是否应使用边际残差或条件残差来识别选择性删除的候选者。
- 应该使用什么样的残差来评估正态性、线性、同方差性等。
- 如何识别高杠杆点以进行选择性删除,以及是否使用来自固定效应或所有效应的杠杆(参见Singer 等人,上文)。
- 如何测试它分布为,即一般多元正态?这仅仅是通过查看随机效应的 QQ 图来完成的吗?如果什么有协方差,即非零非对角项?查看每个随机效应的一维 QQ 图是否仍然足以评估这种类型的正态性?还是需要某种转换?