是否有误报反直觉地超过真阳性的现象的名称

机器算法验证 可能性 术语 直觉
2022-02-05 00:12:41

对于许多人来说,在某些情况下,具有非常高准确度(例如 99%)的给定诊断测试会产生比真阳性更多的假阳性,即真阳性的人口与整个人口相比非常少,这似乎非常违反直觉。

我看到人们经常犯这个错误,例如在主张更广泛的公共卫生筛查或更广泛的反犯罪监测措施等时,但我不知道如何简洁地描述人们所犯的错误。

这种现象/统计谬误有名字吗?如果没有人有一个好的,简洁的,没有行话的直觉/例子,这将帮助我向外行人解释它。

抱歉,如果这是错误的论坛来问这个问题。如果是这样,请指导我找一个更合适的。

4个回答

就在这里。通常,它被称为基准率谬误或更具体的假阳性悖论甚至还有一篇关于它的维基百科文章:见这里

不幸的是,我没有为这个谬误命名。当我需要解释这一点时,我发现提及在外行中普遍知道但非常罕见的疾病是有用的。我住在德国,虽然每个人都在他们的历史书中读过鼠疫,但每个人都知道,作为一名德国医生,我永远不会诊断出真正的鼠疫病例,也不会照顾鲨鱼咬伤。

当你告诉人们,在一百个健康人中,有一个测试鲨鱼咬伤是阳性的,每个人都会同意,那个测试没有意义,不管它的阳性预测值有多好。

根据您在世界的哪个位置以及您的听众是谁,可能的例子可能是瘟疫、疯牛病 (BSE)、早衰、被闪电击中。有许多已知的风险,人们很清楚他们的风险远低于 1%。

编辑/添加:到目前为止,这已经吸引了 3 次投票,没有任何评论。捍卫自己免受最可能的反对:原始海报写道

没有人有一个好的,简洁的,没有行话的直觉/例子,可以帮助我向外行人解释它

我认为我正是这样做的。Pi 先生发布了他更好的答案,而不是我发布了我的外行解释,我一看到它就对他投了赞成票。

基准率谬误与针对不同人群的专业化有关,这并没有抓住更广泛的误解,即高精度意味着低误报率和低误报率。

在解决高精度和高误报率的难题时,我发现如果不向人们介绍精度和召回率的概念,就不可能超越非常肤浅、手摇和不准确的解释。

用外行的话来说,可以简单地写出两个感兴趣的值,而不是过于简化的“准确率”:

  1. 在那些有条件 X 的人中,测试表明有多少比例有条件 X?这是召回率。不正确的确定是假阴性——那些本应被诊断为患有这种疾病但实际上没有的人。
  2. 在测试中说有条件 X 的人中,有多少人实际上有条件 X?这就是准确率。这里的错误判断是误报——我们说的人有条件但没有。

诊断测试只有在传递新信息时才有用。您可以向他们展示,对于任何罕见疾病的诊断(例如,<1% 的病例),构建一个高度准确(>99% 准确度!)的测试是非常容易的,同时我们什么也没告诉我们已经知道谁拥有或不拥有它:只需告诉每个人他们没有它。无限数量的测试具有相同的准确度,但要以召回的准确度为代价,反之亦然。什么都不做就可以获得 100% 的精确度或 100% 的准确度,但只有区分测试才能最大化两者。实际计算并向他们展示准确率和召回率可以为他们提供信息,并帮助他们明智地思考权衡取舍和进行更具洞察力的测试的必要性。

这是关键:测试是否为我们提供了新信息?

然后还有风险规避的维度:找到一个真阳性值得招致多少假阳性?也就是说,你愿意误导多少人认为他们拥有一些他们可能没有的东西,以便找到一个拥有它的人?这将取决于误诊的风险,误诊和误诊的风险通常不同。

编辑:进一步的好处是确认测试或越来越精确的测试,可能会推迟到以后,因为它们更昂贵。因此,可以协同使用偏向误报的诊断来构建一个具有成本效益的鉴别器,尽早消除大多数真阴性。然而,这也以增加真正阳性的危险为代价:您希望癌症患者尽快接受治疗,并让他们跳过三到五圈,每圈都需要提前两周到一个月的时间安排,他们甚至可以获得治疗会使他们的预后恶化一个数量级。因此,在进行后续分流时,将其他较便宜的测试联合考虑是有帮助的,以优先考虑那些具有最大有条件的可能性,并在可能的情况下同时进行多项测试。

只要给自己画一个简单的决策树,它就会变得很明显。见附件。我还可以发送一个非常简单的电子表格,准确地说明影响。在此处输入图像描述在此处输入图像描述