计算收入 A/B 测试的重要性和提升

机器算法验证 假设检验 统计学意义 测试
2022-03-18 17:15:37

我目前正在一堆网站上运行 AB 测试,以了解我们在所有网站上所做的更改,并且正在衡量收入/网站/组,因此我的测试组如下所示:

Website a | Test group a | unique visitors | revenue
Website a | Test group b | unique visitors | revenue
Website b | Test group a | unique visitors | revenue
Website b | Test group b | unique visitors | revenue

等等

最初,我想表明两个测试组之间存在总体差异,因此使用了一个零假设:“测试组对所有站点的收入/cookie 没有影响”。

然后我可以愉快地总结每个测试组的所有唯一访问者(跨站点)和收入。但是,我真的不知道从这里做什么。

我知道可以对转化进行二项式处理,但不能对收入进行处理。我们也不能将平均订单值视为指数或正态分布(我看过的想法)。最初,我考虑使用 Mann-Whitney U 测试,但我读过的大多数内容似乎表明这些最适合数组中 < 20 个条目。

当我创建一个包含每个客户花费的金额的向量时(一个非常稀疏的向量 - 大多数人不买任何东西),每个测试组都有一个不同长度的向量,大小约为 100,000。

我的下一次尝试涉及自举(我认为)——我基本上通过从上述人口稀少的收入向量中抽样来为每个测试组创建一个正态分布。像这样创建大约 10,000 个向量并对每个向量的总和进行正态性检验,为每个测试组提供了正态分布。由此,我相信我可以对两个正态分布的向量进行 t 检验,以找出所做更改的重要性,从而支持/反驳原假设?

我的问题是,以上任何一种尝试都是正确的做法吗?我无法想象这是一件不常见的事情,因为没有一种普遍接受的方式来做到这一点。此外,我还希望能够报告以下内容:

在 q 和 j 的百分比提升上,测试组 x 比测试组 z 好 y%,第 5 和第 95 个百分位数。

计算这些信息位的最佳方法是什么?

2个回答

据我了解,您有一个 2X2 实验设计(因子 1 - 网站(级别:a,b),因子 2 - 访问者组(级别:a,b))和因变量“收入”。

我会认为 ANOVA 对背后的所有假设都很谨慎。您测量/编码因变量“收入”的方式具有不同的含义。安迪菲尔德的
这部电影可能很有用。问候, 马吕斯

可能每个 cookie 的收入具有正态分布(您可以通过引导程序检查这一点)。每个 si 的收入没有正态分布,只有每个 cookie 的收入。也就是说,您可以应用假设检验,因为通常检查两组中每个用户的收入差异是否显着。

另一种方法是将收入分配视为其他两种分配的组合。第一个是转化分布(购买或不购买),另一个分布是每个订单的平均收入。