比例的置信区间(流行率)

机器算法验证 置信区间
2022-03-28 21:54:17

我有一些关于医院样本的数据。对于每家医院,都有患者总数 ( ),以及被诊断患有特定疾病的患者人数 ( )。我是否对样本中所有医院取这个比例的平均值并计算 95% 置信区间为或作为或者.... ?n=1776patientsdiagnoseddiagnosedpatientsμ^μ^±1.96σ/nμ^±1.96μ^(1μ^)/n

更新

[以下来自 whuber 的评论]。此外,数据分为 2 个年龄组(年轻人和老年人)和 3 个风险评分。也就是说,所有1776家医院的患者总数如下:

               younger patients       older patients             

Low risk            A                      D

Medium risk         B                      E

High risk           C                      F

...对于患有这种疾病的患者人数也是如此。

因此,对于年龄组和风险评分的每个组合,我想估计它的平均患病率和置信区间。

以下是一些数据摘要

Risk   age    mean   sd      n
1      u50    0.37   0.19    1776
2      u50    0.49   0.25    1776
3      u50    0.54   0.26    1776
1      o50    0.45   0.36    1776
2      o50    0.52   0.42    1776
3      o50    0.67   0.41    1776
3个回答

乔,

按年龄/风险评分检查每个医院或医院组的(样本量)*(诊断比例)是否 >= 5。如果是这样,则正常 dbn 非常接近二项式 dbn,并且可以使用 95% CI = p_hat +/- 1.96*(p_hat*(1-p_hat)/n)^0.5 公式。

要获得更好的近似值,请使用 Wilson 得分区间(请参阅http://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval)。

罗伯特

您可以尝试非参数引导方法。例如

require(boot)
the.means = function(dt, i) {mean(dt[i])}
boot.obj <- boot(data=mydata, statistic=the.means , R=10000) 
quantile(boot.obj$t, c(.025,.975))

您可以对 6 个数据子集中的每一个重复此操作。

更新的回归方法

这是一种可能有效的方法。您可以将数据“扩展”到患者级别,因此每行对应一位患者,无论患者是否已确诊。它可能看起来像这样:

诊断出住院年龄风险
1 1 0 1
1 0 1 0
1 1 2 1

然后您估计一个二元模型,例如概率,其中您的因变量是风险年龄组交互的虚拟变量。您可能还想聚集在医院。然后,您可以计算每个风险年龄模型的预测边际。

这行不通

的简单线性模型以及对系数和 CI 求幂来破解此问题。这将为您提供几何平均值及其 CI,这是使用合适的平均值,因为您正在处理费率。由于您所有的都大于零,因此获取日志不会花费您任何数据。log(y)μ

这是Stata中的一个示例:

. sysuse auto,clear
(1978 Automobile Data)

. generate logprice=log(price)

. regress logprice, eform(GM)

      Source |       SS       df       MS              Number of obs =      74
-------------+------------------------------           F(  0,    73) =    0.00
       Model |           0     0           .           Prob > F      =       .
    Residual |  11.2235331    73  .153747029           R-squared     =  0.0000
-------------+------------------------------           Adj R-squared =  0.0000
       Total |  11.2235331    73  .153747029           Root MSE      =  .39211

------------------------------------------------------------------------------
    logprice |         GM   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
       _cons |   5656.907   257.8496   189.56   0.000     5165.664    6194.866
------------------------------------------------------------------------------

. means price

    Variable |    Type        Obs        Mean       [95% Conf. Interval]
-------------+----------------------------------------------------------
       price | Arithmetic      74    6165.257        5481.914     6848.6 
             |  Geometric      74    5656.907        5165.664   6194.865 
             |   Harmonic      74    5296.672        4928.901    5723.75 
------------------------------------------------------------------------

请注意,几何平均值与回归输出非常匹配。我从 Roger Newson 的Stata Tip #1中了解到这一点