多次测试的问题是否与对同一样品进行多次测试有关?

机器算法验证 假设检验
2022-04-14 09:22:42

假设我们有一种新的治疗方法,并且只有在它有效且安全的情况下才会被授权。因此,从统计的角度来看,我们必须进行两项测试:一项针对功效,一项针对安全性。我们还希望接受无效或不安全的治疗的概率小于α=0.05

根据我对统计测试的了解,如果我们运行一次试验并最终执行这两个测试,我们必须降低每个测试的统计显着性阈值(例如使用 Bonferroni 校正)以保持整体α0.05

但是,如果我们进行两项试验,一项针对安全性,一项针对有效性呢?因此我们有两个样本,我们还需要调整测试多重性吗?

我的另一个问题是,如果我们忘记了安全性而只需要证明有效性,而两项试验显示不同的结果(一项试验的一项测试是显着的,另一项则不重要),我们能得出关于疗效的什么结论?

2个回答

从根本上说,对多重测试的担忧反映了“重要”结果的实际含义。显着结果意味着如果零假设为真,则观察到的数据不太可能是偶然发生的。

如果您的 alpha 为 0.05,那么当 null 为真时,您运行统计测试的 20 次中大约有 1 次应该得到显着的结果。所以,如果你对 20 种不同的治疗方法进行测试——没有一种是有效的——你会期望其中一种会给你带来显着的结果。

那么,问题是如何处理这种风险。如果您正在测试 20 种不同的治疗方法,很明显您应该对您的结果更加怀疑(因为您希望偶然获得一个显着的结果)。对于您正在测试单一治疗的两个方面的情况也是如此。但是,在这种情况下,如果两者都很重要,您只会接受治疗。这与您要接受任一声明(安全有效)有很大不同。

在这种情况下,您可能不需要使用 Bonferoni 样式校正。这些更正降低了在一系列测试中获得任何重要结果的风险。在这种情况下,使用 0.05 的 alpha 已经意味着您只有 0.25% 的机会接受既无效又不安全的产品(5% 乘以 5%)。

这也是贝叶斯可以真正提供帮助的领域。不显着的结果并不一定意味着治疗是危险的(或无效的)。对药物安全(或有效)的概率有所了解可以帮助指导您如何解释结果。

从技术上讲,假设空值是真的,至少做出一个误报的可能性会增加。然而,通常不需要纠正这一点,因为这两种措施可以被认为是独立的(关于安全性和有效性的争论是相关的。如果有效性影响安全性,或者相反,可能需要更细致入微的实验设计)。

在这种情况下我们不纠正的原因与我们在生活中进行的所有其他实验不纠正的原因是一样的。实验无关。我认为只有在对相同数据执行测试时才应用校正(例如,组之间的所有成对差异)。