我关于 A/B 测试的问题是关于进行测试后分段分析。
例如:
我在我的网站上运行 A/B 测试来跟踪跳出率。在治疗组,我放了一段视频来解释我的公司。在对照组我只放纯文本。我挑选了一部分来自美国的首次用户,以 50/50 的比例分成 2 组。
Metric that i am tracking is average bounce rate (assume 20%).
Power effect (0.8)
effect size i expect to see(10% so bounce rate should fall to (20% - 0.10 * 20% = 18%))
Calculated sample size required is say 1000 for each group.
假设我在正确的时间内运行测试。在测试结束时,我得到的p 值为 0.06。我不拒绝零假设。
但是,例如,当我进行后期测试分段分析时,我看到注册免费试用的用户中有 44% 播放了视频。
在这种情况下,我如何计算 44% 是否显着?(同时考虑多重比较问题?)就像在 Airbnb 实验中一样,他们对浏览器类型进行了细分分析,并能够计算 p 值。
我的方法
这是否意味着对于我要分析的每个部分,我都需要至少 1000 个样本?另外,鉴于此 A/B 测试的 p 值已经在上面生成为 0.06,我将如何重新计算 p 值?