计算 A/B 测试样本量的“最佳”方法是什么?

机器算法验证 样本量 测试
2022-03-31 00:30:41

关于计算样本量的最佳方法,我已经阅读了几个看似相互矛盾的说法。Visual Website Optimizer (VWO) 有一篇关于这个主题的长篇文章。埃文·米勒也是如此。优化也是如此。

使用各种工具通过以下设置估计样本量:

  • 基线转化率:3%
  • 最小可检测效果:20%
  • 意义:95%
  • 变化:2

我从各种计算器中得到以下信息:

  • VWO(必须将“每日访问者”设置为 1 才能获得准确的样本量):25,867
  • Evan Miller(设置为相对,统计功率 80%):13,050
  • 优化:13,000

鉴于看似不同的计算方法,哪一种是“最好的”?我试图了解如何处理这个样本量问题。谢谢!

(我必须在这里列出链接,因为我需要更多的点来发布超过 2 个内联链接)参考:

文章:

  1. vwo.com/blog/how-to-calculate-ab-test-sample-size/
  2. www.vanmiller.org/how-not-to-run-an-ab-test.html
  3. help.optimizely.com/hc/en-us/articles/200133789-How-long-to-run-a-test

计算器:

  1. vwo.com/ab-split-test-duration/
  2. www.vanmiller.org/ab-testing/sample-size.html
  3. www.optimizely.com/resources/sample-size-calculator/?conversion=3&effect=20&significance=95
2个回答

没有最好的使用方法,因为每种方法都与有关测试方法的特定假设有关。Evan Miller 的计算器计算双尾检验的样本量。过去,Optimizely 的计算器正在计算单尾测试的样本。目前,Optimizely 使用贝叶斯状态引擎,并且他们的样本量计算器没有 Power 的输入,基于他们的统计引擎的构造。您可以通过乘以每日流量 * 测试将运行的天数 / 变体数量来返回 VWO 计算器中每个变体的样本量。结果似乎暗示他们也在通用计算样本量,就像 Evan 的计算器一样,用于双尾假设。

您可以使用此公式来消除使用最佳工具的挑战

您可以使用此公式来消除使用最佳工具的挑战