生态学中的混合模型:何时使用随机效应

机器算法验证 混合模式 lme4-nlme
2022-04-12 00:31:22

我对随机效应的理解是基于这篇论文,特别是这个定义:

随机效应:其水平是从更大的总体中抽样出来的,或者其兴趣在于它们之间的变化而不是每个水平的特定效应。(博尔克等人,2009)

在生态学中,随机效应似乎主要用于避免重复测量的(伪)复制,例如从同一位置重复采样,或解释系统发育,即密切相关的物种由于共享进化历史而更可能相似.

在我看来,这只是基于上述定义的随机效应的受限应用。Bolker 定义告诉我,将采样单元视为随机效应将控制采样单元之间可能影响我感兴趣的变量的未测量差异。这是正确的吗?

假设我有一项研究,我对测量X. 我的抽样设计涉及pairedlocations不同的dates. Pairs将是随机效应,以避免如上所述的重复测量。location怎么样date我对locationsor之间的区别不感兴趣date,只有X. 事实上,我想控制两者之间的差异,locationdate更好地理解X对我的反应的影响。locationdate视为随机效应会实现这一点吗?IE:

Response ~ X + (1|location/pair) + (1|date)

但是为什么不把locationdate当作固定变量呢?

Response ~ X + location + date + (1|pair) 

这仍然会将 的效果locationdate的效果分开X,那么为什么将它们作为随机变量呢?如果我将它们作为固定效果,我将能够测量它们的效果X,那么为什么要使用随机效果呢?


虽然@Royce Yang 和@Guille 的答案有助于让我沿着正确的思路思考,但我找到的最好的解释(并且应该在发布这个问题之前找到,不知道我是怎么错过的)就在这里(感谢@ mkt 链接)并从那里开始,这里的帖子。我认为我的问题是问题所在 - 我应该更广泛地表述它。

3个回答

对于几乎所有变量,您都可以选择使用固定或随机效应对它们进行建模。我个人觉得随机效应这个术语相当混乱,因为随机效应通常只是我们试图控制的分组因素它们始终是分类的,因为您不能强制 R 将连续变量视为随机效应。很多时候,我们对它们对响应变量的影响并不特别感兴趣,但我们知道它们可能会影响我们看到的模式。

我对locationsor之间的区别不感兴趣date,只有X. 事实上,我想控制两者之间的差异,locationdate更好地理解X对我的反应的影响。locationdate视为随机效应会实现这一点吗?

日期位置作为分组因素(=随机效应)将完全实现您在问题中概述的内容。

但是为什么不把locationdate当作固定变量呢?

Response ~ X + location + date + (1|pair)

这仍然会将 的影响locationdate的影响分开X,那么为什么将它们作为随机变量呢?如果我将它们作为固定效果,我将能够测量它们的效果X,那么为什么要使用随机效果呢?

这第二部分并不完全正确。您不是在测量locationdateon的影响,X而是在估计location,dateX单独的影响,同时保持其他两个不变。它还增加了更多的自由度,这对于小样本量可能是不可取的。

是的,当您将位置和日期作为自变量包括在内时(如在您的公式中),您将它们的影响与 X 分开。

但是,您确实希望确保您的公式中没有遗漏影响因变量的变量。如果您缺少变量,那么您获得的 X 的影响可能不是 X 单独的纯粹影响。

顺便说一句,您描述的随机效应听起来很像Bootstrap Aggregation的简单版本,用于减少方差和过度拟合。

是的,所提出的混合模型将分离可变性的来源,将固定效应 ( ) 与嵌套变量和X组合的随机效应分开location/pairdate

本质上,引入随机效应的作用是识别可变性的来源,通过估计它们,您可以将其与误差项分开,误差项用于对固定效应(可能是研究对象)进行假设检验。这是通过使用等于零但非零方差的期望值对它们进行建模来实现的,可能具有某种结构。相同随机效应的响应将是相关的。

对于一个固定效应和一个随机效应,,其中对应于设计矩阵固定效应和到随机效应,假设的期望值为E,您可以对其估计量进行假设检验,方差为,识别可变性的来源,第一个是噪声,第二个是随机效应。Yij=μ+αi+βj+εij=Xαi+Zβj+εijXZεijN(0,σε2)βjN(0,σβ2)YijE(Yij)=μ+αiVar(Yij)=σε2+σβ2