一项研究的能力过强意味着什么?

机器算法验证 统计学意义 样本量 规模效应 统计能力
2022-02-09 10:11:43

一项研究的能力过强意味着什么?

我的印象是,这意味着您的样本量如此之大,以至于您有能力检测到微小的效应量。这些影响大小可能非常小,以至于它们更有可能是由于抽样过程中的轻微偏差而不是变量之间的(不一定是直接的)因果关系造成的。

这是正确的直觉吗?如果是这样,我看不出有什么大不了的,只要从这个角度解释结果并且您手动检查估计的效果大小是否足够大以“有意义”。

我错过了什么吗?对于在这种情况下该怎么做,是否有更好的建议?

4个回答

我认为你的解释是不正确的。

你说“这些影响大小可能很小,更可能是由于抽样过程中的轻微偏差而不是变量之间的(不一定直接的)因果关系”,这似乎意味着“过度供电”中的 P 值研究与“适当”动力研究中的 P 值不同。那是错的。在这两种情况下,P 值都是获得与观察到的数据一样极端的数据的概率,或者如果零假设为真,则更极端。

如果您更喜欢 Neyman-Pearson 方法,则如果对两者使用相同的 alpha 值,则从“过功率”研究中获得的误报率与“适当”功率研究中的误报率相同。

所需的解释差异在于,对于过度研究的统计意义和科学意义之间存在不同的关系。实际上,即使效果像您所说的那样微乎其微,因此具有值得怀疑的重要性,但过强的研究将有很大的可能性获得显着性。

只要对“过强”研究的结果进行适当解释(效应大小的置信区间有助于这种解释),“过强”研究就没有统计问题。有鉴于此,一项研究实际上可以被压倒的唯一标准是其他答案中提出的伦理和资源分配问题。

在医学研究中,如果招募太多患者,试验可能是不道德的。例如,如果目标是决定哪种治疗方法更好,那么在确定治疗效果较差之后再用较差的治疗方法治疗患者就不再合乎道德。当然,增加样本量可以让您更准确地估计效应量,但您可能必须在“抽样过程中的轻微偏差”等因素的影响出现之前就停下来。

将公共资金用于充分证实的研究也可能是不道德的。

你所说的一切都是有道理的(虽然我不知道你指的是什么“大事”),尤其是。喜欢你关于效应大小而不是统计显着性的观点。另一个考虑是,一些研究需要分配稀缺资源来获得每个案例的参与,因此人们不想做得过火。

我的经验来自在线 A/B 实验,其中问题通常是动力不足的研究或测量错误的东西。但在我看来,一项过于强大的研究产生的置信区间比可比研究更窄,p 值更低,并且可能存在不同的方差。我想这会使比较类似研究变得更加困难。例如,如果我使用适当的功效重复一项过强的研究,即使我完全复制了效果,我的 p 值也会更高。如果存在可能在更大样本中出现的机会更高的异常值,则增加样本量可以消除变异性或引入变异性。

此外,我的模拟表明,您感兴趣的影响以外的影响可能会随着更大的样本而变得显着。因此,虽然 p 值正确地告诉您结果是真实的概率,但它们可能是真实的,而不是您认为的原因,例如,机会的组合,您无法控制的一些瞬态效应,也许还有其他一些原因您在没有意识到的情况下引入的较小效果。如果这项研究有点过于强大,那么这种风险就很低。问题通常是很难知道足够的功率,例如,如果基线指标和最小目标效果是猜测或结果与预期不同。

我还看到一篇文章认为,太大的样本会使拟合优度测试对无关紧要的偏差过于敏感,从而可能导致违反直觉的结果。

也就是说,我认为最好在高功率而不是低功率方面犯错。