FPR(误报率​​)与 FDR(误报率​​)

机器算法验证 假设检验 错误发现率 类型 i 和 ii 错误 混淆矩阵 假阳性率
2022-02-14 03:19:56

以下引用来自Storey & Tibshirani (2003)著名的研究论文Statistical Significant

例如,5% 的误报率意味着研究中平均 5% 的真正无效特征将被称为显着。5% 的 FDR(错误发现率)意味着在所有称为显着的特征中,平均有 5% 是真正的无效特征。

有人可以使用简单的数字或视觉示例来解释这意味着什么吗?我很难理解这意味着什么。我发现了各种关于 FDR 或 FPR 的帖子,但没有找到任何进行具体比较的地方。

如果该领域的专家能够说明其中一个比另一个更好,或者两者都好或坏的情况,那将是特别好的。

2个回答

我将以几种不同的方式解释这些,因为它帮助我理解了它。

让我们举一个具体的例子。您正在对一群人​​进行疾病测试。现在让我们定义一些术语。对于以下每一项,我指的是经过测试的个人:

真阳性(TP):有病,确定为有病

假阳性(FP):没有疾病,被确定为有疾病

真阴性(TN):没有疾病,确定为没有疾病

假阴性(FN):有疾病,被确定为没有疾病

在视觉上,这通常使用混淆矩阵来显示:

在此处输入图像描述

阳性率 (FPR)是没有患病但被确定为患病的人数(所有 FP)除以没有患病的总人数(包括所有 FP 和 TN) .

FPR=FPFP+TN

错误发现率 (FDR)是未患病但被确定为患有该疾病的人数(所有 FP)除以被确定为患有该疾病的总人数(包括所有 FP 和 TP )。

FDR=FPFP+TP


那么,区别在于分母,即您将误报的数量与什么进行比较?

FPR告诉您将被确定为患有该疾病的所有未患有该疾病的人的比例

FDR告诉您在所有被确定患有该疾病的人中没有该疾病的比例

因此,两者都是有用的、不同的失败衡量标准。根据情况和 TP、FP、TN 和 FN 的比例,您可能更关心其中一个。


现在让我们为此添加一些数字。你已经测量了 100 人的疾病,你得到以下结果:

真阳性(TP):12

误报(FP):4

真阴性(TN):76

假阴性(FN):8

要使用混淆矩阵显示这一点:

在此处输入图像描述

然后,

FPR=FPFP+TN=44+76=480=0.05=5%

FDR=FPFP+TP=44+12=416=0.25=25%

换句话说,

FPR 告诉您,在没有患病的人中,有 5% 的人被确定为患病。FDR 告诉您,25% 的被确定患有该疾病的人实际上并未患有该疾病。


根据@amoeba 的评论进行编辑(也是上例中的数字):

为什么区分如此重要?在您链接到的论文中,Storey 和 Tibhshirani 指出,在全基因组研究中非常关注 FPR(或 I 型错误率),这导致人们做出有缺陷的推论。这是因为一旦你通过修复 FPR 找到显着结果,你真的,真的需要考虑你的显着结果中有多少是不正确的。在上面的例子中,25% 的“显着结果”是错误的!n

[旁注:维基百科指出,尽管 FPR 在数学上等同于第一类错误率,但它在概念上被认为是不同的,因为一个通常是先验设置的,而另一个通常用于衡量测试后的性能。这很重要,但我不会在这里讨论]。


为了更完整:

显然,FPR 和 FDR 并不是您可以使用混淆矩阵中的四个量计算的唯一相关指标。许多可能在不同情况下有用的指标中,您可能会遇到两个相对常见的指标:

真阳性率 (TPR),也称为敏感性,是被确定为患有该疾病的人的比例。

TPR=TPTP+FN

真阴性率 (TNR),也称为特异性,是被确定为未患病的未患病人群的比例。

TNR=TNTN+FP

您应该检查https://en.wikipedia.org/wiki/Confusion_matrix中的表格。请注意 FPR 是垂直放置的,而 FDR 是水平放置的。

  • 如果您的原假设为真但您拒绝它,则会发生 FP
  • 如果您预测了一些重要的事情,但您不应该预测,就会发生 FD