您是正确的,样本量会影响功效(即 1 - II 型错误),但不会影响 I 型错误。一个常见的误解是,当样本量较小时,这样的 p 值(正确解释)不太可靠或有效 - Friston 2012 年的非常有趣的文章对此有一个有趣的看法 [1]。
话虽这么说,动力不足的研究问题是真实的,我想说的是,这句话在很大程度上是正确的,只是措辞有点不准确。
功效不足研究的基本问题是,尽管假设检验中的假阳性率(I 型错误)是固定的,但真阳性率(功效)却下降了。因此,在动力不足的研究中,阳性(= 显着)结果不太可能是真正的阳性。这个想法在错误发现率[2]中表达,另见[3]。这似乎是引用所指的。
关于动力不足的研究经常提到的另一个问题是它们导致高估效应量。原因是 a) 如果功效较低,您对真实效果的估计将在其真实值附近变得更加可变(随机),并且 b) 当功效较低时,只有这些效果中最强的才会通过显着性过滤器。应该补充的是,这是一个报告问题,可以通过讨论和报告所有影响而不仅仅是显着影响来轻松解决。
最后,低功效研究的一个重要实际问题是低功效会增加统计问题(例如估计器的偏差)以及玩弄变量和类似 p-hacking 策略的诱惑。当功率较低时,使用这些“研究人员自由度”是最有效的,这毕竟会增加 I 类错误,例如,参见 [4]。
出于所有这些原因,我确实会对一项动力不足的研究持怀疑态度。
[1] Friston, K. (2012) 非统计审稿人的十大讽刺规则。神经影像学,61,1300-1310。
[2] https://en.wikipedia.org/wiki/False_discovery_rate
[3] 按钮,KS;约阿尼迪斯,JPA;莫克里兹,C.;诺塞克,文学士;弗林特,J。Robinson, ESJ & Munafo, MR (2013) 电源故障:为什么小样本会破坏神经科学的可靠性。纳特。Rev. Neurosci., 14, 365-376
[4] 西蒙斯,JP;Nelson, LD 和 Simonsohn, U. (2011) 假阳性心理学:数据收集和分析中未公开的灵活性允许呈现任何重要的东西。心理学科学,22,1359-1366。