我想问一下在以下案例中可能会提出什么批评:在本文中,他们测试了一种使用测量比率在 X 射线照片上检测宫颈管变窄的方法。在所研究的受试者中,他们确实将 CT 扫描作为“金标准”:众所周知,在 CT 上测量的椎管mm 是狭窄的诊断(逻辑回归中的标签)。
以下是该研究的既定目标:
使用受试者工作特征 (ROC) 曲线分析评估具有显着相关系数 [与 CT 测量] 的比率,以定义优化灵敏度和假阳性率 (1 - 特异性) 以指示发育性宫颈狭窄的截止比值,这是定义为CT上矢状管直径<12 mm。
得出以下结论:
然而,ROC 曲线分析表明,只有 LM/CD 比率 [在 X 射线照片上测量直径的方法之一]表示根管直径为mm(发育性颈椎管狭窄症)。[mm 是“黄金标准”上商定的阈值]。
- 使用 ROC 比较这些不同的椎管测量比率(LM/CD、SL/LM 等)在方法上是否正确?一般在什么标准下是可以的?
- 得出的截止点是否正确从 ROC 曲线?
- 而且,不那么重要但好奇的是,SL/VB 不是和 LM/CD 一样好的(反向)分类器,表明椎管广泛开放吗?
关于第 (2) 点,在医学中使用 ROC 曲线建立阈值是非常有问题的,正如《科学美国人》中所解释的,“对于给定人群而言,哪个阈值是最佳的取决于所诊断疾病的严重性、患病率等因素。人群的状况、对被诊断者采取纠正措施的可用性,以及误报的财务、情感和其他成本。” .
不幸的是,这篇论文的统计细节很少,但我认为所选择的截止值是为了最大化约登的 J 统计量(lr.eta)。没有正面证据表明这是使用的方法,它存在问题,因为成本比率随流行程度而变化,正如@Scortchi 善意分享的这篇文章中一样。
关于第 (3) 点,我想知道是否应该以某种方式将这种测量倒置以将其重新置于“最佳比率”的竞争中作为负预测因子,因为“任何在右下三角形中产生一个点的分类器都可以被否定为在左上角三角形中产生一个点。”
作为说明,并使用可在此处下载的 PSA(前列腺特异性抗原)数据集,总 PSA 可被视为前列腺癌的良好指标。ROC 图展示了一个 AUC 为的凸包和 p 值; 但是,只需更改符号(或反转浓度的值至) 产生镜像:
有人可能会得出结论,该研究没有考虑预测管径较大的比率(因此可以作为没有管狭窄的良好指标),因为没有对例如 SL/VB 应用简单的转换(黄色)将其翻转到上三角形:
@Carl 观察到 SL/VB 与根管直径呈正相关与凹曲线和低 AUC 不相符,点 (3) 得到了加强 - 他们扔在同一个袋子里,并将宽颈管(健康)的测量值与正相关的测量值与窄管(疾病)的测量值进行比较唯一的负相关:
通常,在 ROC 曲线中普遍分析不同诊断测试的准确性或性能,并且报告了带有或不带有 CI 的 AUC。不同分类器的组合也经常被比较。这是一种常见的做法,我很难判断它是否只是可能被滥用但不会消失的东西(作为p值),因此在同行评审中不值得一提,还是在某些情况下可以接受的做法避免 ROC 曲线受到的许多批评的条件,包括将 AUC 考虑到对曲线几乎不感兴趣的部分。对此,ROC曲线是否应该作为补充呈现,避免以“ROC分析”作为方法?



