A/B 测试:z 检验 vs t 检验 vs 卡方检验 vs Fisher 精确检验

机器算法验证 统计学意义 卡方检验 p 值 渔民精确测试 z 统计量
2022-02-06 06:52:27

我试图通过在处理简单的 A/B 测试时选择特定的测试方法来理解推理 - (即具有二进制响应的两个变体/组(转换或未转换)。作为示例,我将使用下面的数据

Version  Visits  Conversions
A        2069     188
B        1826     220

这里的最佳答案很棒,并讨论了 z、t 和卡方检验的一些基本假设。但我感到困惑的是,不同的在线资源会引用不同的方法,你会认为基本 A/B 测试的假设应该几乎相同?

  1. 例如,本文使用z-score在此处输入图像描述
  2. 本文使用以下公式(我不确定它是否与 zscore 计算不同?):

在此处输入图像描述

  1. 本文引用了 t 检验(第 152 页):

在此处输入图像描述

那么有什么理由可以支持这些不同的方法呢?为什么会有偏好?

为了再加入一个候选者,上表可以重写为 2x2 列联表,其中可以使用Fisher 精确检验(p5)

              Non converters  Converters  Row Total
Version A     1881            188         2069  
Versions B    1606            220         1826
Column Total  3487            408         3895

但是根据这个threadfisher的精确测试应该只用于较小的样本量(截断是什么?)

然后是配对的 t 和 z 测试,f 测试(和逻辑回归,但我现在想把它排除在外)......我觉得我淹没在不同的测试方法中,我只想能够在这个简单的 A/B 测试用例中为不同的方法做某种论证。

使用示例数据,我得到以下 p 值

  1. https://vwo.com/ab-split-test-significance-calculator/给出的 p 值为 0.001(z 分数)

  2. http://www.evanmiller.org/ab-testing/chi-squared.html(使用卡方检验)给出的 p 值为 0.00259

  3. 在 R 中fisher.test(rbind(c(1881,188),c(1606,220)))$p.value给出的 p 值为 0.002785305

我想这都非常接近......

无论如何 - 只是希望就在线测试中使用哪些方法进行一些健康的讨论,其中样本量通常为数千,响应率通常为 10% 或更少。我的直觉告诉我要使用卡方,但我希望能够准确地回答为什么我选择它而不是其他多种方式来做到这一点。

2个回答

我们出于不同的原因和不同的情况使用这些测试。

  1. z测试。检验假设我们的观察是独立地从具有未知均值和已知方差的正态分布中得出的。当我们有定量数据时,主要使用z(即啮齿动物的体重、个体的年龄、收缩压等)但是,当对比例感兴趣时,也可以使用(即获得至少八小时睡眠的人的比例等)zzz

  2. t检验。检验假设我们的观察是独立地从具有未知均值和未知方差的正态分布中得出的。请注意,使用检验,我们不知道总体方差。这比知道总体方差更常见,因此检验通常比检验更合适,但实际上如果样本量很大,两者之间几乎没有差异。tttz

使用检验,您的替代假设将是您的一个组的总体均值(或总体比例)不等于、小于或大于另一组的总体均值(或比例)。这将取决于您寻求进行的分析类型,但您的无效假设和替代假设直接比较了两组的平均值/比例。zt

  1. 卡方检验。检验涉及定量数据(或的比例),而卡方检验适用于定性数据。同样,假设是观察是相互独立的。在这种情况下,您不是在寻找特定的关系。您的零假设是变量一和变量二之间不存在任何关系。您的替代假设是确实存在关系。这不会为您提供有关这种关系如何存在的具体信息(即关系的方向),但它将提供证据证明您的自变量和您的组之间存在(或不存在)关系。ztz

  2. 费雪精确检验。卡方检验的一个缺点是它是渐近的。这意味着值对于非常大的样本量是准确的。但是,如果您的样本量很小,则值可能不太准确。因此,Fisher 精确检验允许您准确计算数据的值,而不是依赖于样本量较小时会很差的近似值。ppp

我一直在讨论样本量——不同的参考资料会给你不同的指标来判断你的样本何时足够大。我只想找到一个有信誉的来源,看看他们的规则,然后应用他们的规则来找到你想要的测试。可以这么说,我不会“货比三家”,直到您找到您“喜欢”的规则。

最终,您选择的测试应该基于 a) 您的样本量和 b) 您希望假设采用什么形式。如果您正在寻找 A/B 测试的特定效果(例如,我的 B 组的测试分数更高),那么我会选择测试或测试,待定样本量和总体知识方差。如果您想证明仅存在关系(例如,我的 A 组和 B 组基于自变量而有所不同,但我不在乎哪个组的分数更高),那么卡方或 Fisher 精确检验是适当,取决于样本量。zt

这有意义吗?希望这可以帮助!

对于 3 路测试,您通常使用 ANOVA 而不是 3 个单独的测试。还请在多次测试之前检查 Bonferroni 校正。请使用此 https://www.google.com/search?q=testing+multiple+means&rlz=1C1CHBD_enIN817IN817&oq=testing+multiple+means+&aqs=chrome..69i57j69i60l3j69i61j0.3564j0j7&sourceid=chrome&ie=UTF-8