机器算法验证 - 计算 A/B 测试样本量的“最佳”方法是什么？ - 吾爱随笔录 - 问答

计算 A/B 测试样本量的“最佳”方法是什么？

机器算法验证样本量测试

2022-03-31 00:30:41

关于计算样本量的最佳方法，我已经阅读了几个看似相互矛盾的说法。Visual Website Optimizer (VWO) 有一篇关于这个主题的长篇文章。埃文·米勒也是如此。优化也是如此。

使用各种工具通过以下设置估计样本量：

基线转化率：3%
最小可检测效果：20%
意义：95%
变化：2

我从各种计算器中得到以下信息：

VWO（必须将“每日访问者”设置为 1 才能获得准确的样本量）：25,867
Evan Miller（设置为相对，统计功率 80%）：13,050
优化：13,000

鉴于看似不同的计算方法，哪一种是“最好的”？我试图了解如何处理这个样本量问题。谢谢！

（我必须在这里列出链接，因为我需要更多的点来发布超过 2 个内联链接）参考：

文章：

vwo.com/blog/how-to-calculate-ab-test-sample-size/
www.vanmiller.org/how-not-to-run-an-ab-test.html
help.optimizely.com/hc/en-us/articles/200133789-How-long-to-run-a-test

计算器：

vwo.com/ab-split-test-duration/
www.vanmiller.org/ab-testing/sample-size.html
www.optimizely.com/resources/sample-size-calculator/?conversion=3&effect=20&significance=95

2个回答

没有最好的使用方法，因为每种方法都与有关测试方法的特定假设有关。Evan Miller 的计算器计算双尾检验的样本量。过去，Optimizely 的计算器正在计算单尾测试的样本。目前，Optimizely 使用贝叶斯状态引擎，并且他们的样本量计算器没有 Power 的输入，基于他们的统计引擎的构造。您可以通过乘以每日流量 * 测试将运行的天数 / 变体数量来返回 VWO 计算器中每个变体的样本量。结果似乎暗示他们也在通用计算样本量，就像 Evan 的计算器一样，用于双尾假设。

您可以使用此公式来消除使用最佳工具的挑战

其它你可能感兴趣的问题

上一篇比较独立样本的相对风险下一篇实验设计的书籍推荐？