使用样本大小检查点加速 Web a/b 测试

机器算法验证 统计学意义 测试 顺序分析
2022-03-27 08:30:15

在使用对照和一条实验路线开始 a/b 测试之前,我可以根据两条路线的转化率估计值计算所需的样本量。通过查看历史数据,我可以很好地估计控件的转化率。但实验路线的转化率未知。我想做的是根据各种敏感性计算许多不同的样本量。

例如,我可以计算 10%、15% 和 20% 灵敏度(从控制增加的转化率)的样本量,可能如下所示:

Sensitivity   Required Sample Size
10%           1,961
15%           871
20%           490

我所做的一些阅读表明,您应该在测试开始时计算单个样本大小,并始终运行该测试。

问题:

  • 检查多个预先计算的样本量的统计显着性是否有任何问题,如果我发现结果具有统计显着性,可能会提前结束测试?

例子:

我最初估计实验路线会比对照路线高出 15%。但是,当我达到 490 个样本后,我发现实验路线实际上比对照高 20%,我是否可以结束测试并声明实验路线将转化率提高了 20%?

1个回答

如果您提前固定样本大小,这种方法不具备您将拥有的属性。

在实验继续进行时寻找特定结果并有一些“停止规则”(如果达到特定情况,请尽早停止实验)的情况是顺序分析的一种版本;另见SPRT

您必须注意您的实际决策规则的属性正在执行您想要的操作 - 您不能将一种情况的属性应用于另一种情况并期望它会起作用。

例如,如果您进行顺序测试,您将无法获得在给定样本量下计算的功效;所需的样本量会稍大一些。另一方面,当您的影响很大时,您通常会提前停止 - 这意味着更小的样本量/更快的决策。

具体来说,如果一个人在 490 个样本处终止测试,因为显示出比对照有 20% 的改进,哪些特性会受到影响?

首先,估计会有偏差,而且标准误差、I 型和(如前所述)II 型错误率也会受到影响——加上任何这些都会影响。

我给出的 SPRT 链接概述了一种通用方法,用于通过假设检验提前停止。


Phillip Good 在他的著作Permutation, Parametric, and Bootstrap Tests of Hypotheses的第 6.7 节中做了一些离散序列分析的工作