两个比例之比的置信区间

机器算法验证 置信区间
2022-02-09 03:23:51

我有两个比例(例如,控制布局中链接的点击率(CTR) 和实验布局中链接的点击率),我想围绕这些比例的比例计算 95% 的置信区间。

我该怎么做呢?我知道我可以使用 delta 方法来计算这个比率的方差,但我不知道除此之外还能做什么。我应该使用什么作为置信区间的中点(我观察到的比率,或不同的预期比率),我应该在这个比率周围取多少标准偏差?

我应该使用 delta 方法方差吗?(我并不真正关心方差,只是一个置信区间。)我应该使用Fieller's Theorem,使用案例 1(因为我在做比例,我想我满足正态分布要求)?我应该只计算一个引导样本吗?

1个回答

在流行病学中执行此操作的标准方法(比例的比率通常称为风险比)是首先对比率进行对数变换,使用 delta 方法计算对数尺度上的置信区间并假设正态分布,然后变回来。这在中等样本量下比在未转换的尺度上使用 delta 方法效果更好,尽管如果任一组中的事件数量非常少,它仍然会表现不佳,并且如果任一组中都没有事件则完全失败。

如果有x1x2两组总成绩n1n2,那么对比例的明显估计是

θ^=x1/n1x2/n2.

使用 delta 方法并假设两组是独立的并且成功是二项式分布的,您可以证明

Var(logθ^)=1/x11/n1+1/x21/n2.
取它的平方根给出标准误差SE(logθ^). 假如说logθ^是正态分布的,95% 的置信区间logθ
logθ^±1.96SE(logθ^).
将其取幂给出比例比率的 95% 置信区间θ作为
θ^exp[±1.96SE(logθ^)].