哪个二项式置信区间是正确的?

机器算法验证 数理统计 置信区间 二项分布 荟萃分析 生物统计学
2022-04-02 19:44:45

背景:我正在处理需要转换的数据集。这是流行数据,所以我需要处理比例,并且由于比例非常低,我正在使用Freeman-Tukey 转换我的目标是对流行数据进行元分析。

我已经转换了比例,并使用转换后的数据找到了置信区间。

我有一个精确计算 CI 的森林图,另一个是在反向转换后计算的 CI。两组之间的最大差异是0.07,因此它们非常相似。

我的问题是决定我是否应该报告确切的置信区间,或者那些已经被转换回来的置信区间。我的数据中有十项研究,因此近似值是不合适的。

问题:为了获得正确的置信区间,我是否必须执行反向转换?

我目前有两组答案,我不确定正确的方法。

示例:假设我有一个比例:123/9876

(1) 在计算没有转换的精确 CI 时,我得到:

p=0.01245443; LB=0.01036126; UB=0.01484199

(2) 转换原始数据后,使用(p-z*SE(p), p+z*SE(p)), where SE(p)=sqrt(1/(n+0.5)),得到:

p=0.224109; LB=0.2043868; UB=0.2438312

(3) 反变换给出:

p=0.01245443; LB=0.01035768; UB=0.01474083

但是这三个结果中哪一个是正确的呢?

2个回答

Wilson 得分区间是二项式比例参数的简单而准确的置信区间,它会在范围边界附近自动调整Brown、Cai 和 DasGupta (2001)研究了各种区间的覆盖特性,这是他们推荐的具有良好覆盖特性的区间之一。

区间构造如下。假设你观察N1“成功”和N0“失败”总共给出n=N0+N1数据点。Wilson 得分区间使用正态近似来给出以下关键量:

(N1nθ)2nθ(1θ)ApproxChiSq(1),

χα2表示临界点(上尾区α) 的具有一个自由度的卡方分布,并求解由此产生的二次不等式θ,然后给出概率区间:

1αP((N1nθ)2nθ(1θ)χα2)=P(θ[2N1+χα22n+χα2±nχαn+χα2N0N1n+χα24]).

替换观测值n0n1然后给出得到的置信区间。这个置信区间在各种函数中实现。R您可以在使用CONF.prop中的函数时实现此间隔这是您使用数据获得的时间间隔:stat.extend

#Compute confidence interval using Wilson-score method
library(stat.extend)
CONF.prop(alpha = 0.05, sample.prop = 123/9876, n = 9876)

Confidence Interval (CI) 
 
95.00% CI for proportion parameter for infinite population 
Interval uses 9876 binary data points with sample proportion = 0.0125 

[0.0104489771546811, 0.0148390256803883]

您需要报告反向转换的。这是因为原来的比例很小,你需要把它们变换,然后再变换回比例。