在混合模型中将一个因素视为随机因素有什么好处?

机器算法验证 模型选择 随机效应模型 aic 固定效应模型 混合模式
2022-01-28 10:22:19

由于几个原因,我无法接受将模型因子标记为随机的好处。在我看来,几乎在所有情况下,最佳解决方案似乎都是将所有因素视为固定因素。

首先,固定与随机的区别是相当随意的。标准的解释是,如果对特定的实验单元本身感兴趣,则应使用固定效应,如果对实验单元所代表的总体感兴趣,则应使用随机效应。这没有多大帮助,因为它意味着即使数据和实验设计保持不变,也可以在固定视图和随机视图之间交替。此外,这个定义引发了一种错觉,即如果一个因素被标记为随机,那么从模型中得出的推论在某种程度上比该因素被标记为固定的情况更适用于总体。最后,Gelman 表明固定随机的区别是令人困惑的即使在定义级别,因为对于固定效应和随机效应还有四个定义。

其次,混合模型的估计相当复杂。与“纯固定”模型相反,获得 p 值的方法不止几种。在 R 的 lme4 包中实现 REML 估计的 Bates 教授甚至拒绝完全报告 p 值.

第三,随机因素引入了多少隐式参数是一个模糊的问题。下面的例子是我在 Burnham & Anderson, Model Selection and Multi-Model Inference: A Practical Information-Theoretic Approach中改编的。从偏差-方差权衡的角度来看,随机效应的作用可以说明如下。个处理和个主要因素效应的单向 ANOVA是可估计的。误差项具有分布。如果观察的数量是固定的,则偏差-方差权衡将随着的增加而恶化。假设我们说KKK1N(0,σ2)KK主要影响来自分布。相应模型的复杂度介于固定(过拟合)版本和仅包含截距的欠拟合模型之间。固定模型中有效参数的个数为N(0,σK)

1intercept+(K1)maineffects+1σ=K+1.

随机模型中有效参数的数量至少为三个:此外,随机模型有许多“隐藏”参数,这些参数由施加在主效应上的分布(在这种情况下为正态)限制所暗示。intercept,σ,σK

特别是,如果一个因子具有两个水平,则称其为随机是没有意义的,即使我们确定它的水平是从某个总体中随机抽样的。那是因为固定效果版本有三个参数,而随机效果版本有超过三个参数。在这种情况下,随机模型比固定模型更复杂。显然,从固定版本切换到随机版本更适合更大的K. 然而,随机模型中“隐藏”参数的数量是未知的,因此无法根据 AIC 等信息准则来比较固定版本和随机版本。因此,虽然这个例子说明了随机效应的贡献(更好的偏差-方差权衡的可能性),但它也表明很难说何时将因子从固定重新标记为随机是合理的。

上述问题都不存在于“纯粹固定”的模型中。因此,我愿意问:

  1. 任何人都可以提供一个例子,当使用随机因素时发生了非常糟糕的事情,就好像它是固定的一样?我相信应该有一些模拟研究来明确解决这个问题。

  2. 是否有一种经过验证的定量方法来决定何时从固定标签切换到随机标签有意义?

4个回答

1. Herb Clark(1973 年;继 Coleman,1964 年)描述了心理学和语言学的一个著名例子:“语言作为固定效应谬误:心理学研究中对语言统计的批判”。

克拉克是一位心理语言学家,他讨论心理实验,其中研究对象的样本对一组刺激材料做出反应,通常是从一些语料库中提取的各种单词。他指出,在这些案例中使用的标准统计程序,基于重复测量方差分析,被 Clark 称为,将参与者视为随机因素,但(可能隐含地)将刺激材料(或“语言”)视为固定的。这导致在解释对实验条件因素的假设检验的结果时出现问题:我们自然要假设一个积极的结果告诉我们一些关于我们从中抽取参与者样本的总体以及我们从中抽取的理论总体的信息语言材料。但是F1F1,通过将参与者视为随机和固定刺激,仅告诉我们条件因素对其他类似参与者对完全相同的刺激做出反应的影响。当参与者和刺激都被更恰当地视为随机时进行水平——通常为 0.05——其程度取决于诸如数量和可变性等因素。刺激和实验设计。在这些情况下,至少在经典的 ANOVA 框架下,更合适的分析是使用基于均方线性组合统计量。F1αF

克拉克的论文当时在心理语言学界引起了轰动,但未能在更广泛的心理学文献中产生重大影响。(即使在心理语言学领域,Clark 的建议多年来也变得有些扭曲,正如 Raaijmakers、Schrijnemakers 和 Gremmen,1999 年所记录的那样。)但近年来,由于统计方面的进步,这个问题已经出现了某种程度的复兴。在混合效应模型中,经典的混合模型方差分析可以看作是一个特例。其中一些最近的论文包括 Baayen、Davidson 和 Bates(2008 年)、Murayama、Sakaki、Yan 和 Smith(2014 年)和 ( ahem ) Judd、Westfall 和 Kenny(2012 年)。我敢肯定有一些我忘记了。

2.不完全是。一些方法可以确定一个因素是否更好地作为随机效应包含在模型中(参见例如 Pinheiro & Bates, 2000, pp. 83-87;然而参见 Barr, Levy, Scheepers, & Tily, 2013)。当然,还有一些经典的模型比较技术可以确定一个因素是否更好地作为固定效应包含在内(即检验)。但我认为,确定一个因素是更好地被认为是固定的还是随机的,通常最好将其作为一个概念性问题,通过考虑研究的设计和从中得出的结论的性质来回答。F

我的一位研究生统计学讲师 Gary McClelland 喜欢说,也许统计推断的基本问题是:“与什么比较?” 继 Gary 之后,我认为我们可以将我上面提到的概念性问题构建为:我想将我的实际观察结果与哪些假设实验结果的参考类进行比较?停留在心理语言学的背景下,并考虑一个实验设计,其中我们有一个受试者样本响应一个分类为两种条件之一的单词样本(克拉克详细讨论的特定设计,1973),我将专注于两种可能:

  1. 一组实验,对于每个实验,我们从生成模型中抽取一个新的主题样本、一个新的单词样本和一个新的错误样本。在这个模型下,主题和词都是随机效应。
  2. 一组实验,对于每个实验,我们绘制一个新的主题样本和一个新的错误样本,但我们总是使用相同的单词集在这个模型下,主题是随机效应,而词是固定效应。

为了使这一点更加具体,以下是模型 1 下 4 个模拟实验的 4 组假设结果(上图)的一些图;(下图)来自模型 2 下 4 个模拟实验的 4 组假设结果。每个实验以两种方式查看结果:(左图)按受试者分组,每个受试者的逐个条件均值被绘制并绑定在一起;(右图)按单词分组,箱线图总结了每个单词的响应分布。所有实验都涉及 10 名受试者对 10 个单词做出反应,并且在所有实验中,没有条件差异的“零假设”在相关人群中是正确的。

主题和单词都是随机的:4 个模拟实验

both_random

请注意,在每个实验中,主题和单词的响应配置文件完全不同。对于主题,我们有时会得到低总体响应者,有时是高响应者,有时主题往往表现出较大的条件差异,有时主题往往表现出较小的条件差异。同样,对于单词,我们有时会得到倾向于引起低响应的单词,有时会得到倾向于引起高响应的单词。

受试者随机,字数固定:4 次模拟实验

subs_random

请注意,在 4 个模拟实验中,主题每次看起来都不同,但单词的响应配置文件看起来基本相同,这与我们在此模型下为每个实验重复使用同一组单词的假设一致。

我们选择是否认为模型 1(主题和词都是随机的)或模型 2(主题是随机的,词是固定的)为我们实际观察到的实验结果提供了适当的参考类,这对我们评估条件操作是否有很大影响“工作。” 我们预计模型 1 下的数据比模型 2 下的概率变化更大,因为有更多的“移动部件”。因此,如果我们希望得出的结论与模型 1 的假设更一致,其中机会变异性相对较高,但我们在模型 2 的假设下分析我们的数据,其中机会变异性相对较低,那么我们的类型 1 错误测试条件差异的比率将在一定程度上(可能相当大)夸大。有关详细信息,请参阅下面的参考资料。

参考

Baayen, RH, Davidson, DJ, & Bates, DM (2008)。具有交叉随机效应的主题和项目的混合效应建模。记忆和语言杂志,59(4),390-412。PDF格式

Barr, DJ, Levy, R., Scheepers, C., & Tily, HJ (2013)。验证性假设检验的随机效应结构:保持最大。记忆和语言杂志,68(3),255-278。PDF格式

克拉克,HH(1973 年)。语言作为固定效应谬误:对心理学研究中语言统计的批判。言语学习和言语行为杂志,12(4),335-359。PDF格式

科尔曼,EB(1964 年)。推广到语言人群。心理报告,14(1),219-226。

Judd, CM, Westfall, J., & Kenny, DA (2012)。将刺激视为社会心理学中的随机因素:针对普遍但在很大程度上被忽视的问题的新的全面解决方案。人格与社会心理学杂志,103(1),54. PDF

Murayama, K.、Sakaki, M.、Yan, VX 和 Smith, GM (2014)。元记忆准确性的传统按参与者分析中的 I 型错误膨胀:广义混合效应模型视角。实验心理学杂志:学习、记忆和认知。PDF格式

Pinheiro, JC 和 Bates, DM (2000)。S 和 S-PLUS 中的混​​合效果模型。施普林格。

Raaijmakers, JG, Schrijnemakers, J. 和 Gremmen, F. (1999)。如何处理“语言作为固定效果的谬误”:常见的误解和替代解决方案。记忆和语言杂志,41(3),416-426。PDF格式

假设我有一个制造过程,涉及在几台不同的机器上制造材料。它们是我唯一拥有的机器,所以“机器”是固定效果。但我在每台机器上制作了很多材料,我对预测未来批次的事情很感兴趣。我将“批号”设为随机因素,因为我对未来批次的结果感兴趣。

因此,您将它们视为随机的,以便根据因子的样本量和观察总数,在总体平均值和特定因子的平均值之间存在平均效应。这使您可以说您的结果适用于整个人口,因为您有一种加权平均值和对该因素引起的变异的估计,如果没有,您真的只能说您的结果适用于因素水平您使用了,因为回归会将它们视为离散因素,而不是获得加权平均的随机因素。

当您对同一主题进行重复测量时,它们也很有用,因为您可以使用它们来说明同一主题的测量之间的相关性。

当我们的数据有一个分组结构时,其中是我们个人观察的可观察量和 ,我们不能使用固定效应,因为如果我们使用内部估计器,会退出,如果我们使用每个的虚拟变量,与它们共线。因此,如果我们在这种情况下使用固定效应估计器,我们将忽略潜在的重要信息。Yij=β1Xij+β2Zi+ei+μijXijZiβ2ZiiZi

即使在这种情况下Yij=β1Xij+ei+μij我们没有任何Zi,出于一些原因,我们可能仍希望使用随机效应,尽管它们可能会带来一些问题,其中一些问题已在您的问题中列出。

在这些设置中,随机变异有两个(或更多,如果有多个分组级别)变异源——“组内”变异和“组间”变异。固定效应(或“内部”)估计量完全消除了估计中组间的差异β1. 随机/混合效应估计器允许“之间”变化有助于估计β1,理论上会导致更小的标准误差。


(原答案)

本质上需要使用随机效应的一个地方是,当您想要包含在固定效应的分组级别上不变的参数时。

例如,假设您想调查医生特征(例如/教育)对患者结果的影响。该数据集是患者级别的,具有观察到的患者结果和患者/医生特征。由于在单一医生下治疗的患者可能相互关联,因此您需要对此进行控制。您可以在此处插入医生固定效果,但这样做会排除在模型中包含任何医生特征。如果对医生级别的特征感兴趣,这是有问题的。