我目前正在一堆网站上运行 AB 测试,以了解我们在所有网站上所做的更改,并且正在衡量收入/网站/组,因此我的测试组如下所示:
Website a | Test group a | unique visitors | revenue
Website a | Test group b | unique visitors | revenue
Website b | Test group a | unique visitors | revenue
Website b | Test group b | unique visitors | revenue
等等
最初,我想表明两个测试组之间存在总体差异,因此使用了一个零假设:“测试组对所有站点的收入/cookie 没有影响”。
然后我可以愉快地总结每个测试组的所有唯一访问者(跨站点)和收入。但是,我真的不知道从这里做什么。
我知道可以对转化进行二项式处理,但不能对收入进行处理。我们也不能将平均订单值视为指数或正态分布(我看过的想法)。最初,我考虑使用 Mann-Whitney U 测试,但我读过的大多数内容似乎表明这些最适合数组中 < 20 个条目。
当我创建一个包含每个客户花费的金额的向量时(一个非常稀疏的向量 - 大多数人不买任何东西),每个测试组都有一个不同长度的向量,大小约为 100,000。
我的下一次尝试涉及自举(我认为)——我基本上通过从上述人口稀少的收入向量中抽样来为每个测试组创建一个正态分布。像这样创建大约 10,000 个向量并对每个向量的总和进行正态性检验,为每个测试组提供了正态分布。由此,我相信我可以对两个正态分布的向量进行 t 检验,以找出所做更改的重要性,从而支持/反驳原假设?
我的问题是,以上任何一种尝试都是正确的做法吗?我无法想象这是一件不常见的事情,因为没有一种普遍接受的方式来做到这一点。此外,我还希望能够报告以下内容:
在 q 和 j 的百分比提升上,测试组 x 比测试组 z 好 y%,第 5 和第 95 个百分位数。
计算这些信息位的最佳方法是什么?