在开始实验之前确定样本量还是无限期地运行实验?

机器算法验证 假设检验 样本量 顺序分析
2022-03-12 00:10:13

几年前我学习了统计学,现在已经忘记了这一切,所以这些看起来像是一般的概念问题,而不是任何具体的问题,但这是我的问题。

我在一家电子商务网站担任 UX 设计师。我们有一个多年前构建的 A/B 测试框架,我开始怀疑它。

我们做出所有决定的指标称为转化率,它基于访问该网站并最终购买某物的用户的百分比。

所以我们想测试将购买按钮的颜色从绿色更改为蓝色。

控件是我们已经拥有的,绿色按钮,我们知道我们的平均转化率是多少。实验是用蓝色按钮代替绿色按钮。

我们同意 95% 的显着性是我们满意的置信水平,我们打开实验,让它继续运行。

当用户访问该站点时,在幕后有 50/50 的机会将他们发送到控制版本(绿色按钮)与实验版本(蓝色按钮)。

在 7 天后查看实验后,我发现在 3000 样本大小(1500 到控制,1500 到实验)和 99.2% 的统计显着性的情况下,有利于实验的转化率增加了 10.2%。我认为很棒。

实验继续进行,样本量增加,然后我看到转化率增加了 +9%,显着性为 98.1%。好的,让实验运行更长时间,现在实验显示转化率仅提升 5%,统计显着性仅为 92%,框架告诉我在达到 95% 显着性之前我还需要 4600 个样本?

那么实验在什么时候是结论性的呢?

如果我想到一个临床试验过程,在这个过程中,您事先就样本量达成一致,并且在完成实验时,您看到任何指标都有 10% 的改进,达到 99% 的显着性,然后决定该药物随后进入市场。但是,如果他们对 4000 人进行了实验,他们看到任何指标都有 5% 的改进,只有 92% 显着,那么这种药物就不会被允许进入市场。

如果在关闭实验时显着性为 99%,我们是否应该提前就样本量达成一致并在达到该样本量时停止并对结果感到满意?

4个回答

我认为您正在寻找的概念是顺序分析。此站点上有许多问题标记为您可能会觉得有用的术语,可能是调整自适应序列分析的 p 值(用于卡方检验)?将是一个开始的地方。您也可以在此处查阅 Wikipedia 文章。另一个有用的搜索词是 alpha 支出,它来自这样一个事实,即当您每次重复查看时,您都应该将其视为用尽了您的一些 alpha(显着性水平)。如果您在不考虑多重比较的情况下继续查看数据,则会遇到您在问题中概述的问题。

那么实验在什么时候是结论性的呢?

我认为这就是思维错误的地方。如果您将其理解为“演绎地证明因果关系”,那么实验就不可能是“结论性的”。当您进行涉及统计测试的实验时,您需要就您认为足够好的证据做出承诺。

统计上合理的实验程序为您提供已知误报率和误报率的结果。如果您选择了一个使用 0.05 作为显着性阈值的程序,您就是说您愿意接受在 5% 的情况下实际上没有差异,您的测试会告诉您存在差异。

如果您以您描述的方式偏离程序(不提前选择停止点,只需运行测试直到您计算的 p 值降至 0.05 以下,或多次运行整个实验直到您得到肯定的结果等),您的测试更有可能告诉您存在差异,而实际上没有差异。你让你更有可能被愚弄,以为你的改变是有效的。不要让自己上当受骗。

阅读这篇论文:假阳性心理学 数据收集和分析中未公开的灵活性允许呈现任何重要的东西

它强调了您可以不恰当地干扰测试过程的几种方式,这些方式使您更有可能被愚弄,包括您描述的确切场景(不知道何时停止实验)。

其他答案为您提供了一些解决这些问题的解决方案(顺序分析、用于多重比较的 Bonferroni 校正)。但是,这些解决方案虽然能够控制假阳性率,但通常会降低实验的能力,使其不太可能在存在差异时检测到差异


您还犯了另一个错误。您谈到“将任何指标提高 10% 到 99% 的重要性”。显着性检验只能告诉您样本中观察到的差异是否可能是由于真正的潜在差异或只是随机噪声;它们不会为您提供有关差异的真实幅度的置信区间。

我想你在这里问错了问题。您要问的问题是关于统计测试的;我认为正确的问题是“为什么效果会随着时间而变化?”

如果您正在衡量一个 0/​​1 的转化变量(他们是否购买了?),那么在初始会话中没有购买的人可能会在以后回来购买。这意味着转化率会随着时间的推移而增加,并且客户在第一次访问而不是以后的访问中购买的任何影响都将丢失。

换句话说,首先要弄清楚你正在测量什么,然后再担心你是如何测量的。

这正是为什么需要在试验之前定义一个明确的标准。正如@mdewey 指出的那样,有一些既定的方法可以定期评估试验,但这些方法都需要一个明确的停止标准,以防止对决定的任何捏造。两个关键问题是您需要对多重比较进行校正,并且每个分析都不是独立的,但其结果在很大程度上受到之前分析结果的影响。

作为替代方案,最佳实践可能是根据商业相关论点定义一组样本量。

首先,公司应该同意转换率的商业相关变化是什么(即需要多大的差异才能保证为永久部署更改提供商业案例)。如果不同意这一点,就没有合理的基准。

一旦确定了最小的商业相关影响大小(请注意,这可能会因情况而异,具体取决于所测试步骤的关键程度),那么您同意公司愿意接受的错过真实影响的风险水平( beta) 和接受虚假效果 (alpha)。

一旦您将这些数字插入样本量计算器并瞧,您将拥有设定的样本量来做出决定。


编辑

使用小样本并希望它们显示出足够大的效果是一种错误的经济(因为您的目标是可操作的可靠结果,而不是为学术出版物产生有争议的假设)。假设无偏抽样,在低样本量下,随机选择恰好都朝向相反极端的样本的概率高于高样本量。这导致在实际上没有差异时拒绝零假设的可能性更高。因此,这意味着推动那些实际上并没有产生真正影响甚至更糟糕的是产生轻微负面影响的改变。这是一种不同的方式来解释@Science 在他们声明时所说的内容

“您的测试更有可能告诉您存在差异,而实际上没有差异”

预先指定您的统计分析(无论是我描述的固定样本量还是多重评估策略)的重点是您适当地平衡 I 类和 II 类错误的需求。您当前的策略似乎专注于 I 类错误,而完全忽略了 II 类错误。

正如许多其他回答者所说,结果从来都不是决定性的,但如果您考虑了 I 类和 II 类错误及其对您的业务的影响,那么您将最有信心是否根据结果实施更改。最后,决策是要对您的风险水平感到满意,并且永远不要将您的“事实”视为不可改变的。

我对您研究设计的其他方面很感兴趣,这些方面可能会影响您看到的结果。他们可能会揭示一些你不想要的微妙因素。

被选为样本的人是所有新访客、所有回访者,还是没有区别?老客户可能更倾向于寻找新奇的东西(因此偏向于改变而不是特定的颜色),但对于新客户来说,一切都是新的。

实际点击的人是否在研究的时间范围内重复出现?

如果人们在研究的时间范围内多次访问,他们会得到相同的版本还是随机分配的?

如果包括经常访问的访客,则存在暴露疲劳的危险(它不再分散注意力,因为它不再是新的)