使用混合效应模型的真正动机,以及何时使用它们以及何时不使用它们

机器算法验证 面板数据 混合模式 固定效应模型 数理统计
2022-03-26 09:14:50

我的问题可能听起来很幼稚,但尽管我在网上搜索过,但我还是找不到满意的答案。

我已经被介绍到线性回归、线性固定效应和线性混合效应模型,主要来自 Fitzmaurice-Laird-Waire 的书的一部分。在线性混合模型的开篇章节中,他们说使用混合效应模型的主要原因是部分回归参数可能因个体(=主体)而异。我部分理解(我猜!):所以如果我们想对人口进行建模,请说y(t)=a+bt,然后是总体的初始值,a和成长b将取决于每个人。所以考虑是有道理的a,b作为随机变量而不是常数,就像y, 在相同的样本空间上定义为y. 但是我想会有一些影响增长的因素,这对所有科目都是一样的。

我的问题是:如果某些因素因科目而异Si(说增长率bi),为什么不使用bi作为模型中的常数?假设一个人会获得什么优势bi是随机变量,而不是作为主体函数的常数i?

而且,在现实生活中,人们将如何决定使用哪种模型,固定效应、混合效应,还是纯粹的随机效应?你能给我一些例子,其中一个人更喜欢固定效果,在哪里混合效果?

PS如果这很重要,我来自高等纯数学背景,对我来说,固定效应只是混合效应的一个特例,把所有bi=0. 但我猜统计学家不会这样看待事物,因为这完全取决于哪个更容易使用。

1个回答

使用混合或随机效应模型的原因有很多,但由于时间限制,我将重点介绍其中一个。假设您有 1500 个受试者,每个受试者进行 10 次测量,以及许多协变量。您可以对响应测量进行建模Y使用固定主题词作为Y=Xβ+ϵ. 但是,这需要在模型中输入 1499 个受试者的虚拟变量项(如果您不介意的话,可以输入 1500 个)X矩阵不是满秩的),以及它们的协变量。您可以简单地假设主题是具有给定协方差结构(例如复合对称协方差)的随机效应,而不是使用固定效应方法。然后,您可以将固定和随机效应(称为混合效应)模型拟合为: Y=Xβ+Zu+ϵ. 使用这种方法,您只需要估计每个协变量的截距(如果有的话)的影响(X) 在模型中,并且受试者只有两个随机效应 (σϵ2σ2.) 您不再需要估计所有这些主题的单独效果!

Kleinbaum 等人的《应用回归分析和其他多变量方法》一书是确定您的因素应该是随机的还是固定的好方法。它声明如下:

“固定因子:回归模型中的变量,其可能值(即水平)是唯一感兴趣的变量。随机因子:回归模型中的变量,其水平被视为来自一些大量水平的随机样本。”

它接着说:

“将上述定义应用于流行病学研究时,我们通常假设:

一个。受试者、窝、观察者、家庭和住户是随机因素;湾。性别、年龄、婚姻状况、星期几和教育是固定因素;和 c。取决于研究的背景,地点、治疗、诊所、暴露和时间可以被视为随机或固定因素。”

此外,它指出:

“当有疑问时,决定如何对特定研究变量进行分类的一种方法是考虑以下问题:‘如果我能够复制研究,我是否希望给定因素具有与当前观察到的完全相同的类别?学习?' 等效地,“我是否希望重复研究使用与当前研究中使用的相同的治疗方法、星期几或受试者?” 如果你的答案是肯定的:将因素视为固定因素。否:将因素视为随机因素。