用于比较成像测试的 ROC 曲线何时有效?(重点看下面的例子)

机器算法验证 分类 生物统计学 敏感性-特异性 药物
2022-04-01 03:56:47

我想问一下在以下案例中可能会提出什么批评:在本文中,他们测试了一种使用测量比率在 X 射线照片上检测宫颈管变窄的方法。在所研究的受试者中,他们确实将 CT 扫描作为“金标准”:众所周知,在 CT 上测量的椎管<12mm 是狭窄的诊断(1逻辑回归中的标签)。

以下是该研究的既定目标:

使用受试者工作特征 (ROC) 曲线分析评估具有显着相关系数 [与 CT 测量] 的比率,以定义优化灵敏度和假阳性率 (1 - 特异性) 以指示发育性宫颈狭窄的截止比值,这是定义为CT上矢状管直径<12 mm。

在此处输入图像描述

得出以下结论:

然而,ROC 曲线分析表明,只有 LM/CD 比率 [在 X 射线照片上测量直径的方法之一]0.735表示根管直径为<12mm(发育性颈椎管狭窄症)。[<12mm 是“黄金标准”上商定的阈值]。

  1. 使用 ROC 比较这些不同的椎管测量比率(LM/CD、SL/LM 等)在方法上是否正确?一般在什么标准下是可以的?
  2. 得出的截止点是否正确0.735从 ROC 曲线?
  3. 而且,不那么重要但好奇的是,SL/VB 不是和 LM/CD 一样好的(反向)分类器,表明椎管广泛开放吗?

关于第 (2) 点,在医学中使用 ROC 曲线建立阈值是非常有问题的,正如《科学美国人》中所解释的,“对于给定人群而言,哪个阈值是最佳的取决于所诊断疾病的严重性、患病率等因素。人群的状况、对被诊断者采取纠正措施的可用性,以及误报的财务、情感和其他成本。” .

不幸的是,这篇论文的统计细节很少,但我认为所选择的截止值是为了最大化约登的 J 统计量(lr.eta)。没有正面证据表明这是使用的方法,它存在问题,因为成本比率随流行程度而变化,正如@Scortchi 善意分享的这篇文章中一样。

关于第 (3) 点,我想知道是否应该以某种方式将这种测量倒置以将其重新置于“最佳比率”的竞争中作为负预测因子,因为“任何在右下三角形中产生一个点的分类器都可以被否定为在左上角三角形中产生一个点。”

作为说明,并使用可在此处下载的 PSA(前列腺特异性抗原)数据集,总 PSA 可被视为前列腺癌的良好指标。ROC 图展示了一个 AUC 为的凸包0.85,和 p 值<0.01; 但是,只需更改符号(或反转浓度的值[PSA]1/[PSA]) 产生镜像:

在此处输入图像描述

有人可能会得出结论,该研究没有考虑预测管径较大的比率(因此可以作为没有管狭窄的良好指标),因为没有对例如 SL/VB 应用简单的转换(黄色)将其翻转到上三角形:

在此处输入图像描述

@Carl 观察到 SL/VB 与根管直径呈正相关0.652与凹曲线和低 AUC 不相符,点 (3) 得到了加强 - 他们扔在同一个袋子里,并将宽颈管(健康)的测量值与正相关的测量值与窄管(疾病)的测量值进行比较唯一的负相关:

在此处输入图像描述


通常,在 ROC 曲线中普遍分析不同诊断测试的准确性或性能,并且报告了带有或不带有 CI 的 AUC。不同分类器的组合也经常被比较。这是一种常见的做法,我很难判断它是否只是可能被滥用但不会消失的东西(作为p值),因此在同行评审中不值得一提,还是在某些情况下可以接受的做法避免 ROC 曲线受到的许多批评的条件,包括将 AUC 考虑到对曲线几乎不感兴趣的部分。对此,ROC曲线是否应该作为补充呈现,避免“ROC分析”作为方法?

1个回答

有问题的特定论文,PH Horne 等人,一种新的发育性颈椎管狭窄放射学指标J Bone Joint Surg Am。(2016) 98:1206-14,似乎是一个不幸的例子,可以称为“过早的二分法”。基于 3D 成像(如计算机断层扫描)的重建,矢状椎管直径已确定小于 12 毫米的截止值,以将某人归类为“颈椎管狭窄症”。作者检查了来自更容易获得的 2D 成像的四项测量结果(这也更便宜,并且涉及的辐射剂量要低得多),这些患者的根管直径也通过 3D 成像确定。作者检查了这些二维测量是否可用于预测宫颈狭窄。

这项研究将是一个很好的机会,可以将矢状管直径建模为所有这些 2D 测量值的函数,并了解真实管直径的建模效果如何。不幸的是,作者只检查了这 4 个测量值中每一个与根管直径的相关性,然后研究了根管直径与一组二维测量值的成对比率的相关性。因此,该方法抛弃了涉及所有 4 个测量值的多重回归方法可能提供的更详细信息。

然后,为了评估这些不太理想的成对比率,作者似乎忽略了管直径的实际测量值,而只是试图预测基于 3D 的狭窄/正常分类。论文和本问题中显示的受试者工作特征 (ROC) 曲线显示了更改每个比率的截止值如何影响识别狭窄的敏感性和特异性。使用所有测量值来估计根管直径(连同误差估计),然后才调用< 12 mm 直径的模型可能会更有用。

尽管从统计学的角度来看,这不是一篇好论文,但关于它提出的问题具有普遍意义,值得讨论。D. Hand,在“测量分类器性能:ROC 曲线下面积的连贯替代方案”中Mach Learn (2009) 77: 103–123(在此相关问题中引用)提供了一个重要的关键。

手认为标记了两个类k=0k=1, 流行率πk, 和密度函数fk(s)描述分数在每个类别中的分布s它随着班级成员的概率单调增加1. 错误分类的成本kck, 和c错误分类的成本比0,c=c0/(c0+c1).

当成本比率以这种方式表示并且您拥有正确的班级成员概率模型时,班级分配的成本最优概率截止值为c. 因此,对模型质量的通用度量可能无法为应用模型提供太多指导。关键是要有一个经过良好校准的类成员概率模型,特别是对于接近最终决策点的概率,如果相对错误分类成本已知的话。换句话说,对概率或分数截止的任何选择都是对这些相对成本的隐含选择。

手显示(第 111 页)ROC 曲线下的面积,AUC,

相当于取不同成本比率对应的损失平均c,其中根据分布计算平均值:

w(c)=π0f0(P11(c))|dP11(c)dc|+π1f1(P11(c))|dP11(c)dc|.

这里,P11(c)表示分类的成本最优分数/概率阈值。这说明了使用 AUC 比较不同分类器的两个问题。首先,随着 Hand 的继续;

这意味着权重分布在成本比率上c,隐式用于计算 AUC,取决于经验分数分布fk. 也就是说,用于组合不同成本比率 c 的权重分布会因分类器而异但这是荒谬的。关于可能值的信念c必须从与数据分开的考虑中获得:它们是问题定义的一部分。根据使用哪种工具进行分类,人们无法改变对错误分类的重要性的看法。然而,这实际上是 AUC 所做的——它使用不同的指标评估不同的分类器。

其次,加权平均值进一步取决于班级流行率,π0π1. 这可能会导致进一步的混乱,例如 TM Hamill 和 J. Juras 所描述的,测量预测技能:是真正的技能还是变化的气候学?QJR 陨石。社会党。(2006), 132: 2905–2923

将这些原则应用于与 Horne 等人的论文相关的 3 个具体问题:

  1. 使用 ROC 比较这些不同的椎管测量比率(LM/CD、SL/LM 等)在方法上是否正确?一般在什么标准下是可以的?

现在,先把一开始提出的实验设计的更广泛的问题放在一边。如果将“使用 ROC 比较......准确性”来表示比较 AUC 值,那么这通常是危险的。除了忽略不同错误分类的相对成本以及 Hand 讨论的分类方案中类内分数分布不同的问题之外,这里还存在一个潜在的大问题,即普遍性π的狭窄。Horne 等人的论文中的人群包括已经为某些临床适应症进行 2D 和 3D 成像的个体。人们可能不想将相同的标准应用于更广泛的人群,其中狭窄的患病率可能要低得多,并且相对错误分类成本可能不同。

此外,即使选择忽略这些问题,AUC对于区分模型也不是很敏感。同样,校准是关键。对于此类临床研究的典型样本量,模型性能的比较基于重采样更好,例如在数据中的多个引导样本上重复建模并在完整数据集上进行评估。

2、从ROC曲线推导出0.735的截止点是否正确?

该选择似乎是针对 ROC 上与对角线垂直距离最远的点(表示没有技能),称为(除其他外)最大皮尔斯技能分数。A Note On the Maximum Peirce Skill Score , Weather and Forecasting (2007) 22: 1148-1154 中,A. Manzato 说:“最大化分类器技能的是 ROC 点。” 然而,正如 Manzato 继续证明的那样,这种截断选择并未考虑相对错误分类成本。该选择是否“正确”取决于评分系统的预期用途和相对错误分类成本,Horne 等人似乎没有讨论过。

  1. 而且,不那么重要但好奇的是,SL/VB 不是和 LM/CD 一样好的(反向)分类器,表明椎管广泛开放吗?

一般来说,如果一个特定的评分系统在选择不正确的类方面做得很好,那就选择另一个类。

但是请注意,以上大部分内容都与比较不同评分系统的问题有关。对于任何一种评分系统,ROC 曲线仍然可以方便地概述潜在的敏感性/特异性权衡,特别是如果曲线相应地标有分数。对于任何一个评分系统,AUC 提供了不同类别案例对中相对分数差异与类别成员一致的比例。