我试图通过在处理简单的 A/B 测试时选择特定的测试方法来理解推理 - (即具有二进制响应的两个变体/组(转换或未转换)。作为示例,我将使用下面的数据
Version Visits Conversions
A 2069 188
B 1826 220
这里的最佳答案很棒,并讨论了 z、t 和卡方检验的一些基本假设。但我感到困惑的是,不同的在线资源会引用不同的方法,你会认为基本 A/B 测试的假设应该几乎相同?
- 本文引用了 t 检验(第 152 页):
那么有什么理由可以支持这些不同的方法呢?为什么会有偏好?
为了再加入一个候选者,上表可以重写为 2x2 列联表,其中可以使用Fisher 精确检验(p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
但是根据这个threadfisher的精确测试应该只用于较小的样本量(截断是什么?)
然后是配对的 t 和 z 测试,f 测试(和逻辑回归,但我现在想把它排除在外)......我觉得我淹没在不同的测试方法中,我只想能够在这个简单的 A/B 测试用例中为不同的方法做某种论证。
使用示例数据,我得到以下 p 值
https://vwo.com/ab-split-test-significance-calculator/给出的 p 值为 0.001(z 分数)
http://www.evanmiller.org/ab-testing/chi-squared.html(使用卡方检验)给出的 p 值为 0.00259
在 R 中
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
给出的 p 值为 0.002785305
我想这都非常接近......
无论如何 - 只是希望就在线测试中使用哪些方法进行一些健康的讨论,其中样本量通常为数千,响应率通常为 10% 或更少。我的直觉告诉我要使用卡方,但我希望能够准确地回答为什么我选择它而不是其他多种方式来做到这一点。