可选停止引起的偏差

机器算法验证 假设检验 统计学意义
2022-03-27 22:51:23

这个问题是关于一种比不加注意地进行多次测试(与多假设测试有关)稍微微妙的偏见。

实验者愿意拒绝硬币是公平的假设,期望找到更高的正面概率。抛 100 个硬币时,有 59 个正面,得到H0α=5

一个明显的偏见在于忘记负面结果而只发布正面结果。在最坏的情况下:多次翻转 100 次,直到获得超过 59/100 个正面,并且只发布最后一个实验。

相反,实验者进行多次翻转并在“他想停下来”时停止并发布所有先前的翻转。如果他暗中愿意拒绝 ,这可能会产生偏见:停在某个点上,结果是相当积极的。H0

在最坏的情况下,当所有先前翻转的测试都为阳性时,他可能会停下来。实际上,我很确定停止时间 “第一​​次测试在所有先前的翻转中都很重要”几乎可以肯定是有限的。你确认吗?T:

这种偏见有名字吗?你知道任何关于它的研究或文本吗?

2个回答

这里这里的一些相关帖子

根据第二篇文章的回答,似乎随着翻转次数趋于无穷大,在某些时候显着性检验将是正的(几乎可以肯定),也就是说,存在一些有限数量的样本,之后它几乎肯定会发生。

根据第一篇文章,它实际需要的翻转次数具有有限的中值但无限的期望。作为通过测试所需的阈值可以有效地减轻这种偏差。zα

我做了一些模拟(在下:一个公平的硬币)。我将翻转次数限制为,因为原始停止时间有一个巨大的尾巴,有时计算机不会在合理的时间内停止。无论如何,有限制更现实。H0p=0.5nmaxT

实验是:

  • 做一些前翻转来初始化100
  • %做 z 检验。如果它很重要或者您翻转的次数超过,请停止。α=5nmax
  • 否则再翻转一次并返回上一步

错误发现率(I 型错误)与有很大不同:α

  • 对于:26%nmax=1000
  • 对于:40%nmax=10000

然而,由于可选的停止定理而发生了一些事情:当“元分析”这些实验中的几个(简单地将它们合并到一个大的翻转会话中并进行 z 测试)时,错误发现率的偏差往往会消失:

在此处输入图像描述

这听起来可能有点自相矛盾:我们有很多实验,平均 26% 是错误显着的,但全局实验仍然有 5% 的正确 I 类错误。并且全局估计量仍然(渐近地)无偏。可以通过以下事实来解释:具有更大权重的最长实验最不利于拒绝p^H0

总而言之,可选停止会导致对每个单一实验的测试产生强烈的偏差,但在进行多次实验时偏差往往会消失。