我正在尝试以贝叶斯方式进行 A/B 测试,如Probabilistic Programming for Hackers和Bayesian A/B tests。两篇文章都假设决策者仅根据某些标准的概率来决定哪个变体更好,例如, 所以,更好。这个概率没有提供任何关于是否有足够数量的数据可以从中得出任何结论的信息。所以,我不清楚什么时候停止测试。
假设有两个二进制 RV,和,我想估计它的可能性有多大, 和根据观察和. 此外,假设和后验是β分布的。
因为我能找到参数为和,我可以对后验进行采样,并估计. python中的示例:
import numpy as np
samples = {'A': np.random.beta(alpha1, beta1, 1000),
'B': np.random.beta(alpha2, beta2, 1000)}
p = np.mean(samples['A'] > samples['B'])
例如,我可以得到,. 现在我想要类似的东西.
我已经研究了可信区间和贝叶斯因子,但如果它们完全适用,我无法理解如何为这种情况计算它们。我如何计算这些额外的统计数据,以便我有一个好的终止标准?