如何正确处理每个主题的多个数据点

机器算法验证 spss 重复测量
2022-03-21 13:26:06

我目前正在与某人争论如何正确处理每个受试者的多次测量数据。在这种情况下,在短时间内针对每个受试者的不同条件收集了每个受试者的数据。所有测量都收集完全相同的变量,只是多个变量。

现在的一种选择是仅按条件对数据进行分组,而不关心多个数据点来自一个主题。然而,来自每个受试者的数据点可能并不完全独立。

另一种选择是,首先从每个受试者的每个条件下获取所有测量值的平均值,然后比较平均值。然而,这可能会影响重要性,因为在最终分析中没有考虑到方法具有较小的误差。

如何正确分析这些数据?这是否在 SPSS 中以某种方式处理?原则上,在计算平均值时应该可以计算误差范围,而不是在最终分析中考虑这一点,但我不认为 SPSS 会以某种方式在我背后做这个计算。

2个回答

“按条件对数据进行分组而不关心多个数据点来自一个主题”将违反独立性。所以这是不行的。一种方法是“对每个受试者的每个条件的所有测量值取平均值,然后比较平均值”。你可以这样做,你不会违反独立性,但是你会在聚合中丢失一些信息到主题级别的手段。

从表面上看,这听起来像是一个混合设计,受试者之间的条件和受试者内测量的多个时间段。然而,这就提出了一个问题,你为什么要在多个时间点收集数据?时间的影响或变量随时间的进展是否会因条件而异?如果这些问题的答案是肯定的,那么鉴于数据的结构,我希望您感兴趣的是混合方差分析。混合方差分析会将主题方差从“背后”的 SSTotal 中分割出来。但是,这种划分是否有助于您在受试者之间进行条件测试取决于其他几个因素。

无论如何,在 SPSS/PASW 18 中分析 -> 一般线性模型 -> 重复测量。每个主题都有一行,每个时间点有一列,还有一列作为他们的条件标识符。条件标识符将进入“介于”部分,并且在您定义重复测量因子时将处理重复测量。

正如 drknexus 所提到的,重复测量设计是处理此问题的传统方式。在进行这种分析时,您必须汇总到一个分数/条件/主题。它对违反球形假设和其他问题很敏感。然而,更现代的技术是使用多级建模或线性混合效果。使用这种技术,您不会聚合数据。有几种可用的治疗方法,但我目前不知道最好的基础教程。Baayen (2008) 第 7 章很好。Pinheiro & Bates (2000) 非常好,但从事物的声音来看,请遵循他们在介绍中的建议,并阅读为初学者推荐的内容。

如果您只想获得 ANOVA 样式的结果,假设您的所有数据都是长格式(一行/数据点)并且您有指示主题、响应 (y) 和条件变量 (x) 的列,您可以尝试在 R 中查看类似的内容(确保已安装 lme4 包)。

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

你当然可以有更多的条件变量列,也许是交互的。然后您可以将 lmer 命令更改为...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(顺便说一句,我认为不通过重复措施聚合以增加权力是一种形式上的谬误。有人记得这个名字吗?)