可能是受试者重复测量不平衡?

机器算法验证 方差 不平衡类 重复测量
2022-04-05 13:14:24

我进行了一项受试者内重复测量实验,其中自变量有 3 个水平。因变量是正确性的度量,并记录为正确/不正确。还记录了提供答案所需的时间。

受试者内重复测量方差分析用于确定 IV 的 3 个水平之间的正确性 (DV) 是否存在显着差异,存在显着性。现在,我想分析当答案为 1) 正确和 2) 错误时,提供答案所需的时间是否存在显着差异。

我的问题是:在各个级别中,正确/错误答案的数量不同,例如,级别 1 有 67 个正确答案,级别 2 有 30 个,级别 3 有 25 个。

如何比较三个级别的所有正确答案所需的时间?我认为这意味着它的不平衡?我可以做 3 个单向方差分析来进行成对比较,同时向下调整 p 以考虑每个比较吗?

谢谢

3个回答

我只想强调不在比例尺度上分析准确性的重要性。虽然可悲的是,这种做法在许多学科中普遍存在,但坦率地说,这种做法可能会得出错误的结论。见:http ://dx.doi.org/10.1016/j.jml.2007.11.004

正如 John Christie 所指出的,分析准确性数据的最佳方法是使用二项式链接和参与者作为随机效应的混合效应模型,例如:

#R code
library(lme4)
fit = lmer(
    formula = acc ~ my_IV + (1|participant)
    , family = 'binomial'
    , data = my_data
)
print(fit)

请注意,“my_data”应该是原始的、逐次试验的数据,这样“acc”要么是准确试验的 1,要么是不准确试验的 0。也就是说,数据在分析之前应按比例汇总。

这不是不平衡的,因为您的重复测量应该事先在主题内的这些子组中进行平均。唯一不平衡的是你的手段估计的质量。

正如您汇总准确度以获得正确百分比并首先进行方差分析一样,您也可以平均延迟时间。每个参与者提供 6 个值,因此不平衡。

最有可能的是......首先,方差分析并不是最好的分析。您可能应该使用混合效应建模。对于准确性的初始测试,您将使用混合效应逻辑回归。对于您提出的第二个,它将是延迟的 3 级 x 2 正确性分析。两者都有随机效应。

此外,通常最好对时间进行某种正态性校正,例如对数或 -1/T 校正。这在 ANOVA 中不那么令人担忧,因为您首先聚合了多种均值,这通常通过中心极限定理改善延迟的偏斜。您可以通过 boxcox 分析来查看最适合的方法。

不过,更重要的是……您希望找到什么?这只是探索性的吗?在正确和不正确的组中具有不同的延迟意味着什么?它们之间的交互意味着什么?除非您在实验中对准确性和速度之间的关系进行了完全建模,或者您有一个正在测试的完整模型,否则您可能是在浪费时间。响应不正确的延迟意味着有人做了你想让他们做的事情之外的事情......它可能是任何事情。这就是为什么人们几乎总是只处理正确响应的延迟。

(这两种类型的响应也经常有非常不同的分布,不正确的更平坦,因为它们不成比例地构成了短延迟和长延迟)

所以这是一种单向重复测量方差分析——“Y”是给出答案的时间,第一个因素有 3 个级别(每个主题有 3 个级别)。

我认为最简单的方法是为三个级别中的每一个级别的每个科目计算平均响应时间(这将导致每个科目有 3 个数字)。

然后对其进行弗里德曼测试(在 R 中还有一个事后弗里德曼测试,以防你想要 - 我假设你会)

这样做的缺点是,从某种意义上说,这假设您对三个均值的估计(每个主题的三个级别中的每一个的均值)是相同的,而实际上它们并非如此。您对第 3 级的估计比对第 1 级的估计有更大的可变性。

实际上,我会忽略这一点。从理论上讲,我希望这里有人可以提供更好的解决方案,以便我们俩都能学习:)