为什么只有在结果不显着时才报告统计功效?

机器算法验证 假设检验 统计能力
2022-04-01 07:38:03

众所周知,具有低统计功效的研究检测到真实效果的机会会降低。但是,如果低功效也降低了统计显着结果反映真实效果的可能性(如 电源故障:为什么小样本量会破坏神经科学的可靠性中所示),为什么只有在结果不显着时才报告统计功效?

由于我还不能发表评论,我编辑了我的问题以回应@Glen_b 和@Penguin_Knight:我应该说“讨论”而不是“报告”。当然,应该先验地进行功率计算。但我的问题确实是:为什么那些获得小 p 值且统计功效低的人不会缓和他们的发现?

1个回答

如果结果在统计上不显着,则有两种可能性。一是原假设为真。另一个是原假设是错误的(因此总体之间确实存在差异),但是小样本量、大分散和运气不好的某种组合导致您的实验得出结论,即结果在统计上不显着。

运行功率分析可以帮助理解结果。功率计算回答了这个问题:

如果总体之间的真实差异是一个陈述的假设值(您会发现该值足够大以值得检测),那么您刚刚所做的规模研究(鉴于您观察到的分散)得出结论的可能性是多少?有统计学意义吗?

解释结果:

  • 如果检测到您所关心的差异的能力很高,那么您的结果就是很好的证据,表明实际差异可能小于您的假设值。你有可靠的负面数据。
  • 如果检测到这种差异的能力很低,那么你真的不能从你的数据中得出很多结论。你的发现是模棱两可的。

希望上面的解释显示了功效分析如何有助于解释不具有统计意义的结果。相反,当结果在统计上显着时,功效分析没有多大帮助。

重要提示:功效分析应设置为计算功效以检测您认为在科学(或临床)上值得检测的最小差异。运行功效分析集来计算功效以检测您的研究实际检测到的差异甚至没有一点帮助。如果此类事后观察到的功效计算基于实际观察到的效果,则它们是无效的。

2019 年更新。虽然我认为以上所有内容都是正确的,但我不确定它是否有帮助。更好地计算和解释差异(或比率)的 95% 置信区间,甚至不用考虑功率。功率确实是一种量化提议实验有效性的方法,而不是量化或理解已完成实验结果的好方法......