您在询问是否同意,因此您应该使用测试来表示同意。只有两个本质上是分类的诊断措施(“评估者”),标准测试是科恩的 kappa。这是应用于您的数据的版本,用 R 编码:
tab2 = as.data.frame(tab)
library(irr)
kappa2(tab2[rep(1:4, times=tab2[,3]),1:2])
# Cohen's Kappa for 2 Raters (Weights: unweighted)
#
# Subjects = 46
# Raters = 2
# Kappa = 0.363
#
# z = 2.52
# p-value = 0.0118
该测试意义重大,这意味着存在比您仅凭偶然机会所期望的更大的一致性。
你不必停在那里。您可以衡量同意的百分比,例如:
同意百分比=7 + 277 + 4 + 8 + 27= 73.9 %
敏感性和特异性(或阳性和阴性预测值)构成了类似的信息,但被分解并具有更高的细节水平,这可能更有用但也更复杂。
您还可以测试以查看新测试是否相对于黄金标准存在偏差。具体来说,您的测试电话只称有 11 人生病,而黄金标准指出有 15 人生病。新测试说“生病”的频率是否低于应有的水平?这就是 McNemar 的测试将为您做的。
mcnemar.test(tab)
#
# McNemar's Chi-squared test with continuity correction
#
# data: tab
# McNemar's chi-squared = 0.75, df = 1, p-value = 0.3865
您的数据集中没有足够的证据来确定该测试相对于黄金标准存在偏差。