我有一个不平衡的数据集/缺失值的数据集,由 20 个潜水式声学接收器组成,这些接收器已经在 8 天进行了范围测试(接收器 ID 和 Day 在我的模型中都被视为随机效应)。我的目标是测试多个环境变量对这些接收器检测范围的影响。不幸的是,由于技术问题,无法每天测试5个接收机(例如2天不能测试2个接收机,1天不能测试3个接收机)。
什么是正确的方法?我有 2 个选择:1)减少数据集(排除所有未每天测试的接收器),或 2)使用完整的数据集,包括缺失值。
第一个选择很容易,但可能不是最佳选择(据我在线阅读)。此外,收集的数据将被丢弃。然而,第二种选择似乎更难处理。我读到 lme4 包中的 glmm 可以处理缺失值,但是,它唯一做的就是自动排除所有包含 NA 的行。
因此,假设我选择了第二个选项,并让模型以自动删除的缺失值运行。这将如何影响假设检验?换句话说,p 值的解释是否与平衡设计一样简单?
[编辑:我制定了完整的数据分析,排除了我的硕士项目的那些接收器,以保持平衡的数据集,但是对于出版物,我想使用第二种选择来分析我的数据,因为我认为这是一个更好的选择. 据我所知,围绕这个主题的文献不多,因此我在这个论坛上发帖。]