背景:在心理学中,可能还有许多其他学科,通常的做法是通过聚合参与者内部的数据,然后在聚合上运行测试来测试组间对二元变量的影响,例如准确性。
aggregate.data = data %>%
group_by(subject_nr, condition) %>%
summarise(accuracy=mean(accuracy))
t.test(aggregate.data[aggregate.data$condition==0,]$accuracy,
aggregate.data[aggregate.data$condition==1,]$accuracy,
paired=T)
在这个阶段我们都知道,像这样使用 t 检验/ANOVA 分析比例数据是错误的。研究人员至少应该通过应用反正弦变换来规范化数据(我在心理学期刊上从未见过),但理想情况下应该使用多级逻辑回归
glmer(accuracy ~ condition + (1|subject_nr), data=data, family=binomial)
举个例子,我刚刚阅读了这项研究,有 61 名参与者,报告说,
相对于一致项目,不一致项目的基本率响应比例大幅下降,t(60) = 11.66,SE = .04,p < .001,d = 1.49。
弟子:我们都知道这是不好的做法,但到底有多坏呢?
很难知道这件事是否是一个小的统计争论,一个仅显着的 t 检验问题(例如 p > .01),还是对数千项研究的结果产生怀疑的问题。
更实际地,分析我自己的数据,虽然我知道逻辑混合模型是适合这项工作的工具,但我看到所有顶级期刊都使用了未转换的 t 检验。我是否真的通过使用鲜为人知的分析损害了我的出版机会?