我正在阅读一篇论文,看到一张表格,其中比较了 PPV(正预测值)和 NPV(负预测值)之间的比较。他们为他们做了某种统计测试,这是表格的草图:
PPV NPV p-value
65.9 100 < 0.00001
...
每行都指一个特定的列联表。
他们做了什么样的假设检验?谢谢!
我正在阅读一篇论文,看到一张表格,其中比较了 PPV(正预测值)和 NPV(负预测值)之间的比较。他们为他们做了某种统计测试,这是表格的草图:
PPV NPV p-value
65.9 100 < 0.00001
...
每行都指一个特定的列联表。
他们做了什么样的假设检验?谢谢!
假设如下所示的交叉分类(此处为筛选工具)
我们可以定义筛选准确性和预测能力的四种衡量标准:
每四个度量都是根据观察数据计算的简单比例。因此,合适的统计测试将是二项式(精确)测试,它应该在大多数统计软件包或许多在线计算器中都可用。检验假设是观察到的比例是否显着不同于 0.5。然而,我发现提供置信区间比提供单一显着性检验更有趣,因为它提供了有关测量精度的信息。无论如何,为了重现您显示的结果,您需要知道双向表的总边距(您只给出了 PPV 和 NPV 作为百分比)。
例如,假设我们观察到以下数据(CAGE 问卷是酒精筛查问卷):
然后在 R 中,PPV 将按如下方式计算:
> binom.test(99, 142)
Exact binomial test
data: 99 and 142
number of successes = 99, number of trials = 142, p-value = 2.958e-06
alternative hypothesis: true probability of success is not equal to 0.5
95 percent confidence interval:
0.6145213 0.7714116
sample estimates:
probability of success
0.6971831
如果您使用的是 SAS,那么您可以查看使用说明 24170:如何估计敏感性、特异性、阳性和阴性预测值、假阳性和阴性概率以及似然比?.
为了计算置信区间,高斯近似值(1.96 是标准正态分布在或处的分位数,其中 %),在实践中使用,特别是当比例非常小或非常大时(这里经常出现这种情况)。
如需进一步参考,您可以查看
纽科姆,RG。单一比例的双边置信区间:七种方法的比较。 医学统计,17, 857-872 (1998)。
请参见
Kosinski, Andrzej S. 用于比较诊断测试预测值的加权广义得分统计。医学统计http://dx.doi.org/10.1002/sim.5587 在线发表:2012 年 8 月 22 日