基于例如样本置信度(置信区间宽度)的可选停止规则如何有偏差?

机器算法验证 置信区间 最佳停止
2022-04-14 13:33:21

受此启发:http: //pss.sagepub.com/content/22/11/1359

在开放式数据收集的背景下,无法正确估计必要的样本量,以进行常客测试;

我知道基于主要结果的停止条件是循环的。例如,如果我的 p 值恰好低于 0.05,我就停止采样,那么我的 p 值就有偏差(以至于几乎毫无价值)。但是,假设我选择了另一个停止规则,例如我的 95% 置信区间的宽度(不考虑测试的其他方面,例如如果 CI 包括 0),我是否会引入任何偏差(当然,但是, CI 宽度及相关统计)?

据我了解,这在贝叶斯分析中不是问题,但我想知道有条件停止排除频率测试的选项。

1个回答

Jan Vanhove 提出的模拟表明,基于置信区间宽度的可选停止不会引入偏差。他模拟了零假设为真的情况,并模拟了数千个实验,这些实验继续添加 n,直到置信区间小于预先指定的限制。由于已知原假设为真,p 值应该在 0 和 1 之间均匀分布,这正是他所看到的(下图)。可选停止不会使 p 值产生偏差。

在此处输入图像描述

在这些模拟中,计算每个样本大小的每个 p 值,就好像研究计划使用该点的样本大小一样。Kruschke 指出的问题是,在这种情况下,每个计算的 p 值都依赖于在添加新数据时重复重新分析数据时不正确的假设。但模拟似乎表明这种方法效果很好。我不确定如何解决这种差异。