机器算法验证 - 相当于二项式/泊松变量的 t 检验 - 吾爱随笔录

我必须尝试估计和解释在有限数据集上可能极低的转化率。

因为我的观察结果很少，所以正常的框架会给我一个糟糕的估计，因为人口乘以转化率太小，以至于我的二项式定律无法收敛到正常定律。

因此，我想知道我可以应用什么样的测试来比较这些？

==> 我需要回答的问题：我们对 A 转化率高于 B 的信心有多大？

我害怕使用 t-stat，因为我不知道我们离融合到正常框架有多近，一个典型的例子是：

样本 A = 100 000 次尝试，20 次成功样本 B = 100 000 次尝试，15 次成功

我们假设 Success(A) 和 Success(B) 是参数 100 000 和 lambda(A) 的独立二项式分布（分别是 lambda(B) ）

我想到了几个变种：

我正在考虑设置 H0 = {lambda(A)=lambda(B)=Average conversion of both} 并测试 p 值 = P(Success(A)-Success(B) > 观察值)，并逼近 A 和B as Poisson 在我的示例中，在 H0 中，lambda(A)=lambda(B)=0.000175，并且 Success(A)-Success(B) 是Skellam 分布。但是，有没有办法计算重新分区函数？我对平均转化率的假设是否有点夸张？

-> 我想我也可以寻找最大化 p 值的 lambda，但理论上解决起来更加复杂

-> 我也想知道我应该使用单边还是双边置信区间

基本上，我无法将 t-stat 方法调整为非同方差和非连续变量，所以我想知道关于 p 值的基本问题。

对此的任何来源（即在极限中心定理发挥作用之前发生的事情）也将受到欢迎。

第一次在这里发帖，不要犹豫，告诉我另一个交流是否更适合我的问题。