前几天,一家 a/b 测试公司的网络研讨会让他们的常驻“数据科学家”解释说,您应该通过重新运行实验来验证您的结果。前提是,如果您选择 95% 的置信度,则有 5% (1/20) 的机会出现误报。如果您使用相同的约束重新运行实验,现在有 1/400(我假设他们将其确定为 0.05^2 = 1/400)
这是一个有效的陈述吗?(即“运行两次,两次统计显着性获胜 = 1/400 误报概率”)?这会是提高显着性水平的更好方法吗?
从业务的角度来看,我担心的是通过重新运行实验,您会将更多用户暴露于劣质页面(处理),从而失去潜在销售。