如何在保持低样本量的同时控制顺序 A/B 测试中的误报?

数据挖掘 数据挖掘 测试
2022-02-14 21:08:32

我正在计划进行 n 次独立 A/B 测试(=运行最多 n 次测试,或者如果发现有很好的改进则提前停止)并且为了将显着性水平保持在可接受的水平内(=0.05)我'我考虑控制误报率的方法,同时保持样本量尽可能低(适用于低流量网站)

我知道 Bonferroni、Benjiamimi-Hochberg 和相关方法旨在控制多重比较情况下的误报比例。然而,计算样本量的问题仍然存在,最简单的方法似乎是按照 Bonferroni 校正的规定从 alpha = 0.05/n 开始计算所需的样本量,然后可能使用 Benjiamimi-Hochberg 进行实际测试。当使用 Benjiamimi-Hochberg 时,是否有更好的方法来计算样本量?

此外,由于 A/B 测试旨在测试可能的改进,我认为如果顺序测试基于独立样本,那么两个连续误报的概率将为 alpha^2 = 0.025。我的理解是,如果各个样本不引用相同的用户,则顺序测试将是独立的。例如,这些可能是在上次测试后加入网站的用户。

如果上述想法有意义,我可以使用“弱” Bonferroni(即 alpha' = alpha/(n*0.2) )校正,以便以合理的功效和较低的样本量运行测试,并且一旦发现阳性(零假设被拒绝),我可以重复测试,如果它再次为阳性,则结果为阳性,p < 0.025,这意味着我会接受结果。这种方法将允许对样本大小进行一些控制,但是......听起来不错吗?

任何意见将不胜感激。提前致谢。阿马尔

2个回答

=运行最多 n 次测试,如果发现有好的改进,则提前停止

不要那样做。如果您喜欢到目前为止所看到的内容,请不要在运行 n 个测试之前停止。

http://www.evanmiller.org/how-not-to-run-an-ab-test.html

然而,一般来说,在给定预期效应大小和 alpha 水平的情况下,弄清楚你需要多大的 N 是功效分析的领域。在这里阅读更多:

http://www.uta.edu/faculty/sawasthi/Statistics/stpowan.html

就像 Emre 说的,如果你有一定的 I 类和 II 类错误率需要满足,你可以考虑 Sequential Probability Ratio Test 或者其他方法,比如 Distilled Sensing。

如果您以在线方式进行 A/B 测试,即需要在每个地点到达时做出决定,那么您可以考虑一些在线 FDR 程序(通用 alpha 投资方法),如 LORD、LOND、α-投资或支出以及 GAI++。

Bonferroni 类型校正用于 FWER 控制并且往往过于保守。