保罗。转化率定义为:
Conversion rate=r=Number of goal achievementsVisits=sn。
假设目标达成的次数基本上是试验次数(而不是单位时间或空间的事件数),那么你试图用你的转化率数据做的是估计潜在但未知的转换概率。在估计比率或其不确定性时,绝对没有必要做出正态假设。相反,您可以使用贝叶斯 Beta 二项式模型来估计未知比例的概率分布。svκ
在 Beta-二项式模型中,您的转化率数据遵循大小且概率的二项式分布:vnκ
s∼Bin(n,κ)
当然,您不知道是什么,因此您将使用贝叶斯定理通过结合您对概率可能是什么的先验信念和您的转化率数据来估计它。事实证明,在这种情况下,关于概率的先验信念分布的一个非常有用的模型是具有浓度参数和的Beta 分布。καβ
κ∼Beta(α,β)
在 Beta 分布中,参数 α 和 β 代表您对成功和失败集中度的先前信念。一个浓度参数相对于另一个参数越大,您就越相信概率有利于该事件。此外,集中参数总和越大,您获得的关于转化率的先验信息就越多(例如,来自使用相同着陆页的先前实验),您对预期概率的确定性就越高。α+βαα+β
这里有一个漂亮的数学结果。事实证明,转换概率的后验分布遵循 Beta 分布,其中浓度参数是您先验参数的简单修改。转换概率的后验分布为:κ
Pr(κ|s,n,α,β)∼Beta(α+s,β+n−s)
也就是说,您只需将数据中的计数添加到适当的浓度参数(α 是成功的浓度,β 是失败的浓度),瞧!
但是你应该如何设置和的值呢?如果您有关于该着陆页转化率的先前信息,也许您可以将浓度参数设置为这些先前实验的计数。但要小心:先前的样本量越大,您需要的新转换数据就越多,以压倒您先前的信念。再一次,您可以设置参数,使先前的期望值αβαα+β等于您之前实验的转化概率,但也要选择参数以使其总和较低,这反映了您缺乏有关当前着陆页的信息,例如,因为这个着陆页与您之前的着陆页有很大不同。您如何设置先验取决于您的情况和信念以及这些信念的强度。
另一种选择是声称不知道的值可能是什么。在这种情况下,您可以设置,这相当于连续均匀(即平坦)先验分布。有人建议您应该使用Jeffrey 的先验分布,其中,它是一个 U 形,模式为 0 和 1。κα=β=1α=β=1/2
无论您选择哪种先验分布,现在您都可以估计转换概率的期望值,即:
E(κ|s,n,α,β)=α+sα+β+n
您还可以使用 Beta 分布方差、后验中位数、后验峰度、后验偏度等公式来估计后验方差。您可以使用 R 等计算机程序根据您的数据估计转换率的可信范围。例如,您可以通过启动 R 并运行以下代码来估计后验 95% 置信区间(假设您之前在代码中定义了、、和):αβsn
post_CI <- qbeta(c(0.025, 0.975), alpha, beta)
您还可以使用后验分布的模拟来计算任意数量的替代可信区间,例如最高后验密度区间或最低后验损失区间。您应该认真研究最高后验密度区间,因为 Beta 分布可能非常偏斜,导致传统的分位数区间方法允许值进入区间,其后验概率低于不在区间内的值。下面是计算最高后验密度区间的代码,假设您已经像以前一样定义了所有内容:
sims <- rbeta(1000000, alpha, beta)
require(coda) || install.packages("coda")
post_HDI <- HPDinterval(as.mcmc(sims), prob=0.95)