在医学图像处理中,大多数已发表的作品都试图降低误报率(FPR),而实际上,误报比误报更危险。其背后的原理是什么?
大多数已发表的医学成像著作背后的基本原理是试图减少误报
TL;DR:疾病很少见,因此假阳性的绝对数量比假阴性的绝对数量多得多。
假设我们的系统具有相同的假阳性率和假阴性率 1%(非常好!),并且我们今年检测到新癌症的存在:439.2 / 100,000 人,或 0.5% 的人口。[来源]
- 没有癌症,没有检测到:99.5% x 99% = 98.5% (98.505%)
- 无癌症,检测:99.5% x 1% = 1.0% (0.995%)
- 癌症,检测:0.5% x 99% = 0.5% (0.495%)
- 癌症,未检测到:0.5% x 1% = 0.005%
所以我们可以看到我们有一个问题:对于每个患有癌症的人,两个没有患癌症的人最终接受了侵入性手术、化学疗法或放射疗法。
对于每一个未能检测到当前癌症的人,有 200 人接受了他们不需要且负担不起的积极有害治疗。
你知道那个叫狼来了的男孩的故事吧?
这是同样的想法。某个分类器误报(狼嚎)这么多次后,医务人员会关掉它或忽略它。
“哦,又是这个!不!”
至少在我合作过的生物工程小组中,重点是减少 FPR,因为目标是制造一种工具,可以提醒医生注意潜在的病理学,他们告诉我们他们会忽略一个叫狼的产品太多了。
对于帮助医生的产品,我们必须诉诸他们的心理,尽管有合理的论点认为在农场里错过狼比哭狼更糟糕。
编辑:减少误报也有一个合理的论点。如果您的计算机在偶尔获得真阳性(并捕捉到大部分真阳性)时一直在哭狼,这实际上是在说某人可能生病了。他们在医院里。医生知道病人可能生病了。
总结:问题可能*不是一个假阴性是否比一个假阳性更糟糕,它可能更像是* 500个假阳性是否可以接受以降低到一个假阴性。
* 取决于应用程序
让我稍微扩展一下@Dragon 的回答:
筛查意味着我们在看似健康的人群中寻找疾病。正如@Dragon 解释的那样,对于这些我们需要极低的 FPR(或高灵敏度),否则我们最终会得到比真阳性更多的误报。即,阳性预测值(在所有确诊阳性中# 真正患病)将低得无法接受。
诊断系统的敏感性 (TPR) 和特异性 (TNR) 很容易测量:选取一些真正(非)患病的病例并测量正确检测到的病例的比例。
OTOH,无论是从医生的角度还是从患者的角度来看,预测值都更加重要。它们是敏感性和特异性的“反面”,并告诉您在所有正面(负面)预测中,哪个分数是正确的。换句话说,在测试说“疾病”之后,患者实际患有疾病的概率是多少。
正如@Dragon 向您展示的那样,发病率(或流行率,取决于我们正在谈论的测试)在这里起着至关重要的作用。各种筛查/早期癌症诊断应用的发病率都很低。
为了说明这一点,绝经后妇女的卵巢癌筛查在普通人群中的患病率为 0.04%,在有家族史和/或已知肿瘤抑制基因 BRCA1 和 2 突变的高危女性中患病率为 0.5% [Buchen, L.巨蟹座:错过了标记。自然, 2011, 471, 428-432]所以问题通常不是一个假阴性是否比一个假阳性更糟糕,而是即使是 99% 的特异性(1% FPR)和 95% 的敏感性(取自上面链接的论文中的数字)也意味着每个假阴性大约有 500 个假阳性.
作为旁注,还请记住,早期癌症诊断本身并不是癌症的灵丹妙药。例如,对于乳腺癌筛查乳房 X 线摄影,只有 3-13% 的真阳性患者实际上从筛查中受益。
因此,我们还需要关注每个受益患者的误报数量。例如,对于乳房 X 线照相术,连同这些数字,粗略估计,每个受益的真阳性(39 - 49 岁组)有 400 - 1800 个假阳性。每个假阴性都有数百个假阳性(每个患者可能有数百甚至数千个假阳性受益于筛查),情况并不像“一种漏诊的癌症比一种假阳性癌症诊断更糟”那么清楚:假阳性确实会产生影响,从心理和心身(担心自己患有癌症本身不健康)到后续诊断的身体风险,例如活检(这是一个小手术,因此有其自身风险)。
即使一个误报的影响很小,如果必须考虑数百个误报,相应的风险可能会大大增加。建议阅读:Gerd Gigerenzer:Risk Savvy:How to Make Good Decisions (2014)。
尽管如此,使诊断测试有用所需的 PPV 和 NPV 高度依赖于应用程序。
正如所解释的,在筛查早期癌症检测时,重点通常是 PPV,即确保您不会因假阴性而造成太大伤害:找到相当一部分(即使不是全部)早期癌症患者已经比未经筛选的现状。
OTOH,献血中的 HIV 检测首先关注 NPV(即确保血液中不含 HIV)。尽管如此,在第二(和第三)步中,通过进一步测试来减少假阳性,然后再担心(假)阳性 HIV 检测结果的人。最后但并非最不重要的一点是,还有一些医学检测应用,其发病率或流行率并不像通常在筛查非特别高风险人群时那样极端,例如一些鉴别诊断。
从个人角度来看,与数据科学经验相比,假阳性对患者生活质量的影响比假阴性更大(至少在医学图像处理的大多数应用中。我们这里不是在谈论实验室结果) .
让我们看一个具体的例子:肿瘤筛查。
假阴性意味着早期肿瘤有更多时间生长并发展成恶性癌症。总体而言,此过程需要很长时间,并且每次后续筛查都有更高的检测机会,但实际上患者的长期健康会受到影响。
此外,总是有人参与诊断。当前技术阶段的医学图像处理旨在为医务人员提供帮助,而不是替代品。它通常意味着指出组织中非常微妙的病变或变化,以至于人类可能会忽略它们。医生不可能忽视晚期肿瘤。他们不需要为此进行图像处理。
在医疗程序方面,如果肿瘤在下一次筛查之前没有变得无法手术,那么切除早期肿瘤或有更多时间生长的肿瘤没有太大区别。切除的组织量较多,但手术的种类往往是一样的。(这假设患者定期进行健康检查。)
误报具有许多并非都与疾病直接相关的含义:
- 附加程序。在成像过程产生阳性结果后,将进行更多测试以提取血液或组织(活检)。客观地说,患者的身体受到损伤,可以验证成像结果。
- 害怕。实验室测试需要时间。受影响的人通常会经历几天甚至几周的不确定天气或病变是否实际上是癌症。许多经历过这种假阳性的人将这一事件描述为“创伤”,并长期遭受与健康相关的焦虑。
- 时间投资。如果通过实验室测试或类似方法验证成像结果需要多次检查,则患者和医生必须为他们投入时间。即使只需要一次测试,也有好几个人参与,包括护士、医生和实验室技术人员。在医生长期过度劳累的时代,应尽可能避免这种情况。
- 不必要的药物。在最坏的情况下,患者会接受一种他们甚至没有的疾病的治疗,并且他们的身体会因药物的副作用而承受不必要的压力。
- 效果丧失。如果程序产生太多误报(如其他答案中所述),医务人员将忽略真正的阳性结果。
这种风险-收益-评估表明,假阴性对患者的风险低于假阳性。因此,减少误报的优先级通常更高。