1. Herb Clark(1973 年;继 Coleman,1964 年)描述了心理学和语言学的一个著名例子:“语言作为固定效应谬误:心理学研究中对语言统计的批判”。
克拉克是一位心理语言学家,他讨论心理实验,其中研究对象的样本对一组刺激材料做出反应,通常是从一些语料库中提取的各种单词。他指出,在这些案例中使用的标准统计程序,基于重复测量方差分析,被 Clark 称为,将参与者视为随机因素,但(可能隐含地)将刺激材料(或“语言”)视为固定的。这导致在解释对实验条件因素的假设检验的结果时出现问题:我们自然要假设一个积极的结果告诉我们一些关于我们从中抽取参与者样本的总体以及我们从中抽取的理论总体的信息语言材料。但是F1F1,通过将参与者视为随机和固定刺激,仅告诉我们条件因素对其他类似参与者对完全相同的刺激做出反应的影响。当参与者和刺激都被更恰当地视为随机时进行水平——通常为 0.05——其程度取决于诸如数量和可变性等因素。刺激和实验设计。在这些情况下,至少在经典的 ANOVA 框架下,更合适的分析是使用基于均方线性组合统计量。F1αF
克拉克的论文当时在心理语言学界引起了轰动,但未能在更广泛的心理学文献中产生重大影响。(即使在心理语言学领域,Clark 的建议多年来也变得有些扭曲,正如 Raaijmakers、Schrijnemakers 和 Gremmen,1999 年所记录的那样。)但近年来,由于统计方面的进步,这个问题已经出现了某种程度的复兴。在混合效应模型中,经典的混合模型方差分析可以看作是一个特例。其中一些最近的论文包括 Baayen、Davidson 和 Bates(2008 年)、Murayama、Sakaki、Yan 和 Smith(2014 年)和 ( ahem ) Judd、Westfall 和 Kenny(2012 年)。我敢肯定有一些我忘记了。
2.不完全是。有一些方法可以确定一个因素是否更好地作为随机效应包含在模型中(参见例如 Pinheiro & Bates, 2000, pp. 83-87;然而参见 Barr, Levy, Scheepers, & Tily, 2013)。当然,还有一些经典的模型比较技术可以确定一个因素是否更好地作为固定效应包含在内(即检验)。但我认为,确定一个因素是更好地被认为是固定的还是随机的,通常最好将其作为一个概念性问题,通过考虑研究的设计和从中得出的结论的性质来回答。F
我的一位研究生统计学讲师 Gary McClelland 喜欢说,也许统计推断的基本问题是:“与什么比较?” 继 Gary 之后,我认为我们可以将我上面提到的概念性问题构建为:我想将我的实际观察结果与哪些假设实验结果的参考类进行比较?停留在心理语言学的背景下,并考虑一个实验设计,其中我们有一个受试者样本响应一个分类为两种条件之一的单词样本(克拉克详细讨论的特定设计,1973),我将专注于两种可能:
- 一组实验,对于每个实验,我们从生成模型中抽取一个新的主题样本、一个新的单词样本和一个新的错误样本。在这个模型下,主题和词都是随机效应。
- 一组实验,对于每个实验,我们绘制一个新的主题样本和一个新的错误样本,但我们总是使用相同的单词集。在这个模型下,主题是随机效应,而词是固定效应。
为了使这一点更加具体,以下是模型 1 下 4 个模拟实验的 4 组假设结果(上图)的一些图;(下图)来自模型 2 下 4 个模拟实验的 4 组假设结果。每个实验以两种方式查看结果:(左图)按受试者分组,每个受试者的逐个条件均值被绘制并绑定在一起;(右图)按单词分组,箱线图总结了每个单词的响应分布。所有实验都涉及 10 名受试者对 10 个单词做出反应,并且在所有实验中,没有条件差异的“零假设”在相关人群中是正确的。
主题和单词都是随机的:4 个模拟实验

请注意,在每个实验中,主题和单词的响应配置文件完全不同。对于主题,我们有时会得到低总体响应者,有时是高响应者,有时主题往往表现出较大的条件差异,有时主题往往表现出较小的条件差异。同样,对于单词,我们有时会得到倾向于引起低响应的单词,有时会得到倾向于引起高响应的单词。
受试者随机,字数固定:4 次模拟实验

请注意,在 4 个模拟实验中,主题每次看起来都不同,但单词的响应配置文件看起来基本相同,这与我们在此模型下为每个实验重复使用同一组单词的假设一致。
我们选择是否认为模型 1(主题和词都是随机的)或模型 2(主题是随机的,词是固定的)为我们实际观察到的实验结果提供了适当的参考类,这对我们评估条件操作是否有很大影响“工作。” 我们预计模型 1 下的数据比模型 2 下的概率变化更大,因为有更多的“移动部件”。因此,如果我们希望得出的结论与模型 1 的假设更一致,其中机会变异性相对较高,但我们在模型 2 的假设下分析我们的数据,其中机会变异性相对较低,那么我们的类型 1 错误测试条件差异的比率将在一定程度上(可能相当大)夸大。有关详细信息,请参阅下面的参考资料。
参考
Baayen, RH, Davidson, DJ, & Bates, DM (2008)。具有交叉随机效应的主题和项目的混合效应建模。记忆和语言杂志,59(4),390-412。PDF格式
Barr, DJ, Levy, R., Scheepers, C., & Tily, HJ (2013)。验证性假设检验的随机效应结构:保持最大。记忆和语言杂志,68(3),255-278。PDF格式
克拉克,HH(1973 年)。语言作为固定效应谬误:对心理学研究中语言统计的批判。言语学习和言语行为杂志,12(4),335-359。PDF格式
科尔曼,EB(1964 年)。推广到语言人群。心理报告,14(1),219-226。
Judd, CM, Westfall, J., & Kenny, DA (2012)。将刺激视为社会心理学中的随机因素:针对普遍但在很大程度上被忽视的问题的新的全面解决方案。人格与社会心理学杂志,103(1),54. PDF
Murayama, K.、Sakaki, M.、Yan, VX 和 Smith, GM (2014)。元记忆准确性的传统按参与者分析中的 I 型错误膨胀:广义混合效应模型视角。实验心理学杂志:学习、记忆和认知。PDF格式
Pinheiro, JC 和 Bates, DM (2000)。S 和 S-PLUS 中的混合效果模型。施普林格。
Raaijmakers, JG, Schrijnemakers, J. 和 Gremmen, F. (1999)。如何处理“语言作为固定效果的谬误”:常见的误解和替代解决方案。记忆和语言杂志,41(3),416-426。PDF格式