机器算法验证 - 比例 T 检验 - 错误，但有多错误？ - 吾爱随笔录

背景：在心理学中，可能还有许多其他学科，通常的做法是通过聚合参与者内部的数据，然后在聚合上运行测试来测试组间对二元变量的影响，例如准确性。

aggregate.data = data %>%
                  group_by(subject_nr, condition) %>%
                  summarise(accuracy=mean(accuracy))

t.test(aggregate.data[aggregate.data$condition==0,]$accuracy,
       aggregate.data[aggregate.data$condition==1,]$accuracy,
       paired=T)

在这个阶段我们都知道，像这样使用 t 检验/ANOVA 分析比例数据是错误的。研究人员至少应该通过应用反正弦变换来规范化数据（我在心理学期刊上从未见过），但理想情况下应该使用多级逻辑回归

glmer(accuracy ~ condition + (1|subject_nr), data=data, family=binomial)

举个例子，我刚刚阅读了这项研究，有 61 名参与者，报告说，

相对于一致项目，不一致项目的基本率响应比例大幅下降，t(60) = 11.66，SE = .04，p < .001，d = 1.49。

弟子：我们都知道这是不好的做法，但到底有多坏呢？

很难知道这件事是否是一个小的统计争论，一个仅显着的 t 检验问题（例如 p > .01），还是对数千项研究的结果产生怀疑的问题。

更实际地，分析我自己的数据，虽然我知道逻辑混合模型是适合这项工作的工具，但我看到所有顶级期刊都使用了未转换的 t 检验。我是否真的通过使用鲜为人知的分析损害了我的出版机会？