您需要在随机因子的每个级别内进行多少次观察才能拟合随机效应?

机器算法验证 混合模式 样本量 咕噜咕噜
2022-03-15 22:46:25

我正在尝试分析一组鸟类调查中的一些数据。我的响应变量是“鸟类丰度”,即五分钟内统计的鸟类数量。这些五分钟的计数是在约 200 个地点进行的。在每个站点重复计数 3 次,尽管有大约 20 个站点只完成了两次计数。我想将鸟类丰度建模为站点级别属性(栖息地质量等)以及计数级别属性(计数时的天气条件等)的函数。

所以,我有大约 200 个站点和大约 600 个个人计数,但每个站点只有 2-3 个计数。我的问题是:鉴于我每个站点只有 2-3 个计数,我可以将站点作为随机因素包括在内,以说明站点内计数的非独立性吗?(请注意,如有必要,我可以删除只有两个计数的站点)。

我已经阅读了有关您在随机因子的每个级别内需要的观察数量的相互矛盾的信息。Ben Bolker 关于 GLMMs in Trends in Ecology and Evolution 的论文说“每个随机效应有 5-6 个随机效应水平,每个治疗水平或实验单位有 10-20 个样本”,但后来我也读到了建议使用混合模型重复测量采用预处理、后处理和后续样本的设计 - 即每个随机效应水平内只有三个观察值。

谢谢您的帮助!

周杰伦

2个回答

随机或混合效应模型不需要每个级别有一定数量的观察。事实上,如果每个级别有很多观察结果,则可能不需要随机效应,您可以将其作为因子变量包含在内。

您应该能够将站点指定为随机效应变量并继续,并且它不应该对您的推理质量产生负面影响。正如您在评论中指出的那样,带有 lme4 包的标准 GLMM 应该可以正常工作。

您可以在分析中包含只有两个计数的站点。

一种方法是创建一个多级模型,将先验分布分配给所有可观察数据,然后使用数据更新到后验分布(本质上是贝叶斯分析)。如需指导,请查看 (Gelman, Hill 2006) 和使用 STAN 的教程。

要寻找的一个关键字是“数据插补”来处理缺失值。