是否假设混合效应模型中的组效应是从正态分布中挑选出来的?

机器算法验证 回归 正态分布 置信区间 混合模式 方差
2022-03-31 01:12:57

假设我们对学生考试成绩如何受这些学生学习的小时数影响感兴趣。我们对来自几所不同学校的学生进行抽样调查。我们运行以下混合效应模型:

exam.gradesi=a+β1×hours.studiedi+schoolj+ei

我说得对吗,在这个模型中,假设每所学校都是从更大的学校群体中挑选出来的,并且学校的影响是正态分布的?因此,我们可以为学校的群体效应做所有“通常的”正态分布类型的程序吗?我们可以说 68% 的学校会在学校平均群体效应的 1 个标准差以内吗?我们能否计算出学校整体平均群体效应的 95% 置信区间?

我是否也正确地说具有学校固定效应的线性回归无法计算这些正态分布统计数据,因为它们使用参考组和虚拟变量?

1个回答

您说得对,在标准线性混合效应模型中,随机效应被假定为正态分布。因此,如果这个假设(至少近似)成立,我们可以使用我们对正态分布的了解来帮助描述随机效应的分布,例如 95% 的随机效应应该在 0 的两个标准差内(因为随机效果以 0 为中心)。

话虽如此,检查这些假设很重要,而且并不总是那么容易!如果您有关于每个集群的大量数据,您可以执行分层分析之类的操作并绘制每个集群的置信区间。这仍然有点困难。假设您有一个极端异常值,即距离 0 几个标准差的紧密置信区间。这是因为这种随机效应真的很大而且我们对此非常肯定吗?还是因为我们没有大量关于这种随机效应的数据,并且由于样本量小而我们低估了方差?

至于简单线性回归和混合效应模型之间的区别,答案是混合效应模型要复杂得多。假设随机效应都是从相同的(通常是正态的)分布产生的。因此,与您刚刚拟合具有所有固定效应的简单线性回归模型相比,随机效应的估计实际上被拉向 0(请记住,随机效应以 0 为中心)。

此外,另一个区别是随机效应固定为均值为 0,允许模型的完全可识别性:如果您尝试在简单的线性模型中拟合主效应和所有随机效应,您的模型将无法识别。这是因为将 1 加到主效应并从“随机”效应中减去 1(使用引号是因为您会将它们拟合为固定效应)将导致完全相同的预测值。不过这个问题并不那么重要:我们可以很容易地从模型中排除主效应,然后如果我们有兴趣检查主效应,我们只需取所有“随机”效应的平均值。然而,如上所述,估计的“随机”效应比使用混合效应模型拟合时要嘈杂得多:关于该集群的信息,而不是借用提供的有关集群效应分布的信息。