通过重新运行实验来验证 web a/b 测试 - 这有效吗?

机器算法验证 可能性 假设检验 统计学意义 测试
2022-03-11 02:42:51

前几天,一家 a/b 测试公司的网络研讨会让他们的常驻“数据科学家”解释说,您应该通过重新运行实验来验证您的结果。前提是,如果您选择 95% 的置信度,则有 5% (1/20) 的机会出现误报。如果您使用相同的约束重新运行实验,现在有 1/400(我假设他们将其确定为 0.05^2 = 1/400)

这是一个有效的陈述吗?(即“运行两次,两次统计显着性获胜 = 1/400 误报概率”)?这会是提高显着性水平的更好方法吗?

从业务的角度来看,我担心的是通过重新运行实验,您会将更多用户暴露于劣质页面(处理),从而失去潜在销售。

2个回答

暂时忽略误报的可能性,我会这样看:

  1. 如果您运行两次实验并获得相同的结果,您将不知道是否有两个真阳性结果或连续两个假阳性结果。
  2. 如果您运行两次实验并得到两个不同的结果,那么您不知道哪个是真阳性,哪个是假阳性结果。

在任何一种情况下,您都应该进行第三次实验,只是为了确定。这对于相对便宜的实验来说可能很好,但在成本可能很高的情况下(比如失去客户),你真的需要考虑收益。

查看概率,第一次运行实验时,有 1/20 的机会出现误报。第二次运行实验时,仍有1/20 的机会出现误报(将其视为掷骰子,每次掷骰有 1/6 的机会获得特定数字)。连续出现两个误报的可能性只有 1/400。

真正的问题是要有一个定义明确的假设和严格的程序,并且要有一个你可以忍受或负担得起的样本量、误差水平和置信区间。实验的重复应留待探索

  1. 随着时间的推移客户
  2. 组织所做的更改
  3. 比赛做出的改变

而不是第二次猜测结果。尽管向经理解释这一点说起来容易做起来难。

是的,假设您的实验是理想的,那么该陈述是正确的。但获得一个理想的实验远比这种情绪给出的可信度要难得多。“真实世界”的数据首先是混乱、复杂且难以解释的。有缺陷的分析、隐藏的变量(很少有“相同的约束”)或数据科学家在做他们的工作和标记执行官之间的沟通不畅的空间很大。

从业务的角度来看,确保良好的方法论,而不是对结果过于自信;一个比你想象的更棘手的挑战。一旦你把这些都搞定了,那就继续努力那 5%。