如何通过 Bootstrap 方法分析和解释 A/B 测试结果?

机器算法验证 假设检验 p 值 引导程序
2022-04-01 18:49:20

我们对新产品功能进行了拆分测试,并希望衡量收入的提升是否显着。我们的观察结果绝对不是正态分布的(我们的大多数用户不花钱,在那些花钱的人中,它严重偏向于许多小消费者和一些非常大的消费者),所以我们决定使用引导法来比较解决数据非正态分布的问题的方法。

所以我的结果表明,我们确实比对照组有大约 8% 的提升。我现在想计算一下我对这次提升的信心。对于测试组 PDF 减去控制 PDF 的 PDF,它是否像测量概率密度函数在零以下的比例一样简单?(例如,那部分反映了我的 2 个 PDF 没有不同的可能性百分比?)

任何帮助将非常感激。

1个回答

由于 CLT,平均值的引导通常没有意义。只需在平均值上使用平均值和标准误差。这将给出与您的引导程序相同的结果,或者您的引导程序会给出一个糟糕的结果。

如果您确实知道要比较均值(并且不清楚您对预期总和的估计比均值更好),那么您想测试这两个样本是否可能来自同一总体。这将是一个带有均值的Welch t 检验,μ,以及均值的标准误,σμ.

如果每个选择都有来自其他因素(例如实施成本)的不同相关风险,问题就会变得更加复杂。如果 t 检验表明没有显着差异,那么您显然希望采用风险较低的变体。但是,如果具有较高风险的变体对平均收入有统计上的显着影响,那么它就是一个判断电话。