A/B 测试:如何计算测试后段的 p 值?

数据挖掘 统计数据 测试 实验 假设检验
2021-09-25 13:02:37

我关于 A/B 测试的问题是关于进行测试后分段分析。

例如:

我在我的网站上运行 A/B 测试来跟踪跳出率。在治疗组,我放了一段视频来解释我的公司。在对照组我只放纯文本。我挑选了一部分来自美国的首次用户,以 50/50 的比例分成 2 组。

Metric that i am tracking is average bounce rate (assume 20%). 
Power effect (0.8)
effect size i expect to see(10% so bounce rate should fall to (20% - 0.10 * 20% = 18%))
Calculated sample size required is say 1000 for each group. 

假设我在正确的时间内运行测试。在测试结束时,我得到的p 值为 0.06我不拒绝零假设。

但是,例如,当我进行后期测试分段分析时,我看到注册免费试用的用户中有 44% 播放了视频。

在这种情况下,我如何计算 44% 是否显着?(同时考虑多重比较问题?)就像在 Airbnb 实验中一样,他们对浏览器类型进行了细分分析,并能够计算 p 值。 在此处输入图像描述

我的方法

这是否意味着对于我要分析的每个部分,我都需要至少 1000 个样本?另外,鉴于此 A/B 测试的 p 值已经在上面生成为 0.06,我将如何重新计算 p 值?

2个回答

我最近在一篇博文中写到了这一点鉴于这是一个速率评估指标,您将需要使用 z 检验。基本步骤是(博客文章中的更多详细信息)

  1. 计算成对比较的合并标准误差
  2. 通过标准误差对 delta 或提升进行归一化来计算 z 统计量
  3. 查找归一化增量的 cdf 值
  4. p 值 = 1-cdf(z)
  5. 鉴于这也是 A/B/n 检验​​,在评估显着性时,您还应该使用 bonferroni 程序或 benjamini hochberg 程序应用多重检验校正

好吧,如果您想回答单个细分市场是否达到相同水平而忽略所有其他细分市场行为的问题,那么这应该是所需的数字(假设细分市场的初始性能相同)。

作为一个警告,当您使用多个片段时:https ://xkcd.com/882/ 可能会发生。