我阅读了由 Peter Bruce 和 Andrew Bruce 撰写的“数据科学家实用统计”一书。在本书中,假设检验仅通过置换检验来实现。如果我在网上搜索,有公式,我也没有看到太多的排列测试博客文章。我想问一下排列测试足以分析a / b实验数据,还是我需要不同的东西?
对不起我的语法错误,我的母语不是英语。
我阅读了由 Peter Bruce 和 Andrew Bruce 撰写的“数据科学家实用统计”一书。在本书中,假设检验仅通过置换检验来实现。如果我在网上搜索,有公式,我也没有看到太多的排列测试博客文章。我想问一下排列测试足以分析a / b实验数据,还是我需要不同的东西?
对不起我的语法错误,我的母语不是英语。
归根结底,置换检验是一种统计显着性检验;如果我们想要另一种常客非参数方法,我们可以使用自举(例如,请参阅“自举和置换测试如何工作? ”(2003 年),Janssen & Pauls 的相关比较)。是否应该使用它们来代替标准参数测试是一个非常古老的问题(例如,请参阅基于观察排列的测试的大样本功效(1952)由 Hoeffding 作为使用置换检验而不是假设检验的标准参数检验的早期尝试)并没有真正的明确答案。甚至可能有人争辩说,置换测试在没有明确定义的情况下构造了一个空值,而参数测试从不回避空值的显式定义——参见第 1 章。17计算机时代统计推断中的大规模假设检验和 FDR(2016 年),Efron & Hastie 对此进行了更仔细的讨论。
因此,排列测试不是统计的灵丹妙药。因此,认为问题不应该是“置换测试”是否足以进行 A/B 测试,而是“假设测试”是否足以进行 A/B 测试。在这种情况下,答案是否定的。我们需要回归分析,我们需要能够确定没有我们意外忽略或意外包含的混杂变量,等等。是的,在大多数情况下,排列测试就足够了,一切都按计划进行,我们没有观察到季节性,没有首要或新颖性影响,我们的选择偏差有限,什么不是。在订单案例中,我强烈建议您也学习回归分析和一般实验设计原则。最近,因果推理也成为了一种通过我们的观察数据获得更深入见解的手段,但这是遵循标准回归分析技术的一步。
最后,值得注意的是,虽然置换测试确实是一种假设测试,但 A/B 测试是一种最大化业务目标的实验方法,使用统计假设测试只是所需方法的一部分(参数或非参数,常客或贝叶斯等)。例如,多臂强盗是解决同一问题的另一种实验方法。最终,我们想要最大化我们的效用函数(例如,在客户端的时间、用户支出等)。这不是假设检验的目标,因为它对假设的真实性更感兴趣。
考虑下面两个虚构的正态样本,其中样本大小、样本均值和样本方差都不同。
set.seed(2021)
x1 = rnorm( 70, 50, 5)
x2 = rnorm(100, 53.2, 9)
没有注意到不同方差的人可能会进行合并的 2 样本 t 检验,在 5% 的水平上发现均值没有差异,并得出没有什么有趣的结论。
t.test(x1, x2, var.eq=T)$p.val
[1] 0.07286454
summary(x1); length(x1); sd(x1)
Min. 1st Qu. Median Mean 3rd Qu. Max.
38.72 45.22 49.70 49.55 52.70 60.60
[1] 70 # sample size
[1] 5.366852 # sample standard deviation
summary(x2); length(x2); sd(x2)
Min. 1st Qu. Median Mean 3rd Qu. Max.
28.89 45.37 51.90 51.87 57.64 77.20
[1] 100
[1] 9.805152
stripchart(list(x1,x2), ylim=c(.5,2.5), pch="|")
但是,更合适的 Welch 2 样本 t 检验(不假设方差相等)确实发现均值差异在 5% 水平。
t.test(x1, x2)$p.val
[1] 0.04866419
并且(假设正态性)F 检验发现样本方差之间存在非常显着的差异。
var.test(x1,x2)$p.val
[1] 3.605368e-07
即使是臭名昭著的 Kolmogorov-Smirnov 检验也发现这两种人口分布并不完全相同。
ks.test(x1,x2)$p.val
[1] 0.04495466
非参数 Wilcoxon 秩和检验发现显着差异。然而,由于样本的形状不同,这不能被视为对中位数差异的检验。
wilcox.test(x1, x2)
Wilcoxon rank sum test with continuity correction
data: x1 and x2
W = 2878, p-value = 0.04909
alternative hypothesis: true location shift is not equal to 0
也不清楚(几乎不显着的)“位置偏移”是否真的等于第二个(更大的)样本的随机支配[在下面的经验 CDF 图中为棕色。]
hdr = "ECDFs of Samples 1 [blue] and 2 [brown]"
plot(ecdf(x1), col="blue", main=hdr)
lines(ecdf(x2), col="brown")
此外,可以提出使用各种指标的置换测试,这可能会显示总体均值的差异——或不。
根据您所说的“更好”的含义,您可能会找到一个标准或置换测试来支持 A 或 B 是“更好” - 或者它们之间没有足够的“差异”以具有实际重要性。
这取决于。这是一个非常广泛的问题。
置换检验是假设检验的一种方法。与基于抽样分布的更常见的检验相比,置换检验倾向于更保守地接受新证据(低功效),并且对关于总体的假设不太敏感。这些测试的一个缺点是它们的计算量非常大,对于中型或大型数据集来说是不切实际的。
因此,如果您愿意做出这些权衡,置换测试适用于 A/B 测试。