我试图了解两者之间的区别
检验零假设(即检验“目标”的概率在 2 个不同的群体中是否相同,类似于 R 中的 prop.test)
使用贝叶斯公式的 A/B 测试,如下所述:http ://www.evanmiller.org/bayesian-ab-testing.html
有区别吗?一个更可取吗?
我面临的问题看起来像这样:
对照组有 100,000 次展示和 100 个反应 测试组有 50,000 次展示和 55 个反应
我试图了解两者之间的区别
检验零假设(即检验“目标”的概率在 2 个不同的群体中是否相同,类似于 R 中的 prop.test)
使用贝叶斯公式的 A/B 测试,如下所述:http ://www.evanmiller.org/bayesian-ab-testing.html
有区别吗?一个更可取吗?
我面临的问题看起来像这样:
对照组有 100,000 次展示和 100 个反应 测试组有 50,000 次展示和 55 个反应
有区别吗?
是的。零假设检验产生一个检验统计量和一个 p 值,在假设零假设为真的情况下,检验统计量的概率与数据的概率一样极端。在您的示例中,prop.test测试假设和是平等的。这与您的链接中描述的概率不同,:
在您的数据上,prop.test产生 0.6291 的 p 值;我们将其解释为,如果,我们预计在大约 63% 的实验中会看到如此极端的数据。但这不能直接解释为替代方案优于对照的概率。使用链接帖子的公式,一个到达,这可以直接解释。(休息后的 Python 代码。)
为了对此有一点直觉,观察两个后密度.

最后一个直观的帮助是,我们可以绘制后验差异的分布,并观察到其大约四分之三的区域位于:

重申一下,p 值仅告诉我们数据未能达到我们确信存在差异的极端。
一个更可取吗?
这个问题是更广泛的贝叶斯诉频率论选择的一个例子,并且经常转向意见问题。总的来说,我相信答案取决于许多因素,包括应用程序、受众和分析师的偏好。以下是查看两者之间差异的几种方法,希望有助于说明何时更可取。
贝叶斯 A/B 测试的一个很好的介绍是这样的:
这两种说法哪个更吸引人:
(1) “我们拒绝了 A=B 的零假设,p 值为 0.043。”
(2) “A 有 85% 的机会比 B 有 5% 的提升。”
贝叶斯建模可以直接回答(2)之类的问题。
另一方面,理论统计学家拉里·瓦瑟曼(Larry Wasserman )很好地描述了这两种思想流派:
但首先,我应该说贝叶斯和频率论推理是由它们的目标而不是它们的方法定义的。
频率推理的目标:构造具有频率保证的过程。(例如,置信区间。)
贝叶斯推理的目标:量化和操纵你的信念程度。换句话说,贝叶斯推理是信念分析。
>>> from scipy.special import betaln as lbeta
def probability_B_beats_A(a_A, b_A, a_B, b_B):
... total = 0.0
... for i in range(a_B):
... total += exp(lbeta(a_A+i, b_B+b_A) - log(b_B+i) - lbeta(1+i, b_B) - lbeta(a_A, b_A))
... return total
>>> probability_B_beats_A(101, 100001 - 100, 56, 50001 - 55)
0.72594700264280843