我在一家在线机构工作,我们在那里进行了大量的 AB 测试,以测试两组之间的比例差异(测试与控制)。测试比例差异的行业标准做法是基于正态分布或卡方。
Chi 基检验倾向于使用大量数据,而这些数据并不总是有,而正态分布检验存在问题,因为与正态近似不同,比例受和我向我的同事声称,使用 beta 分布的测试应该总是过度执行正常/chi 选项,因为它是为比例而构建的。
这是我执行测试的 R 代码,该测试表明测试超过了对照组(95%):
library(ggplot2)
number_of_success_test <- 46
number_of_success_controll <- 33
number_of_failures_test <- 2643
number_of_failures_controll <- 2579
test1 <- rbeta(100000, number_of_success_test, number_of_failures_test, ncp=0)
test2 <- rbeta(100000, number_of_success_controll, number_of_failures_controll, ncp=0)
test <- data.frame(test1, test2)
quantile(test2, 0.95)
g <- ggplot(data=test, aes(x=test1)) +
geom_density(color="red", bindwidth=0.0000001) +
geom_density(aes(x=test2), bindwidth=0.0000001) +
geom_vline(xintercept=quantile(test2, 0.95)) +
geom_vline(xintercept=quantile(test1, 0.5),
color="red")
g + xlab("CR") + geom_text(label="95 pecentile - control group",
x=quantile(test2, 0.95), y=15000) +
geom_text(label="50 pecentile - test group",
x=quantile(test1, 0.5), y=12000, color="red")
我对吗?在处理比例差异时,使用 beta 分布而不是 chi / 正态分布真的总是更好吗?(另外,我在 R 代码中的方法对吗?)