几年前我学习了统计学,现在已经忘记了这一切,所以这些看起来像是一般的概念问题,而不是任何具体的问题,但这是我的问题。
我在一家电子商务网站担任 UX 设计师。我们有一个多年前构建的 A/B 测试框架,我开始怀疑它。
我们做出所有决定的指标称为转化率,它基于访问该网站并最终购买某物的用户的百分比。
所以我们想测试将购买按钮的颜色从绿色更改为蓝色。
控件是我们已经拥有的,绿色按钮,我们知道我们的平均转化率是多少。实验是用蓝色按钮代替绿色按钮。
我们同意 95% 的显着性是我们满意的置信水平,我们打开实验,让它继续运行。
当用户访问该站点时,在幕后有 50/50 的机会将他们发送到控制版本(绿色按钮)与实验版本(蓝色按钮)。
在 7 天后查看实验后,我发现在 3000 样本大小(1500 到控制,1500 到实验)和 99.2% 的统计显着性的情况下,有利于实验的转化率增加了 10.2%。我认为很棒。
实验继续进行,样本量增加,然后我看到转化率增加了 +9%,显着性为 98.1%。好的,让实验运行更长时间,现在实验显示转化率仅提升 5%,统计显着性仅为 92%,框架告诉我在达到 95% 显着性之前我还需要 4600 个样本?
那么实验在什么时候是结论性的呢?
如果我想到一个临床试验过程,在这个过程中,您事先就样本量达成一致,并且在完成实验时,您看到任何指标都有 10% 的改进,达到 99% 的显着性,然后决定该药物随后进入市场。但是,如果他们对 4000 人进行了实验,他们看到任何指标都有 5% 的改进,只有 92% 显着,那么这种药物就不会被允许进入市场。
如果在关闭实验时显着性为 99%,我们是否应该提前就样本量达成一致并在达到该样本量时停止并对结果感到满意?