机器算法验证 - FPR（误报率）与 FDR（误报率） - 吾爱随笔录

FPR（误报率）与 FDR（误报率）

机器算法验证假设检验错误发现率类型 i 和 ii 错误混淆矩阵假阳性率

2022-02-14 03:19:56

以下引用来自Storey & Tibshirani (2003)著名的研究论文Statistical Significant

例如，5% 的误报率意味着研究中平均 5% 的真正无效特征将被称为显着。5% 的 FDR（错误发现率）意味着在所有称为显着的特征中，平均有 5% 是真正的无效特征。

有人可以使用简单的数字或视觉示例来解释这意味着什么吗？我很难理解这意味着什么。我发现了各种关于 FDR 或 FPR 的帖子，但没有找到任何进行具体比较的地方。

如果该领域的专家能够说明其中一个比另一个更好，或者两者都好或坏的情况，那将是特别好的。

2个回答

我将以几种不同的方式解释这些，因为它帮助我理解了它。

让我们举一个具体的例子。您正在对一群人进行疾病测试。现在让我们定义一些术语。对于以下每一项，我指的是经过测试的个人：

真阳性（TP）：有病，确定为有病

假阳性（FP）：没有疾病，被确定为有疾病

真阴性（TN）：没有疾病，确定为没有疾病

假阴性（FN）：有疾病，被确定为没有疾病

在视觉上，这通常使用混淆矩阵来显示：

假阳性率 (FPR)是没有患病但被确定为患病的人数（所有 FP）除以没有患病的总人数（包括所有 FP 和 TN） .

F P R = \frac{F P}{F P + T N}

$FPR = \frac{FP}{FP + TN}$

错误发现率 (FDR)是未患病但被确定为患有该疾病的人数（所有 FP）除以被确定为患有该疾病的总人数（包括所有 FP 和 TP ）。

F D R = \frac{F P}{F P + T P}

$FDR = \frac{FP}{FP + TP}$

那么，区别在于分母，即您将误报的数量与什么进行比较？

FPR告诉您将被确定为患有该疾病的所有未患有该疾病的人的比例。

FDR告诉您在所有被确定患有该疾病的人中没有该疾病的比例。

因此，两者都是有用的、不同的失败衡量标准。根据情况和 TP、FP、TN 和 FN 的比例，您可能更关心其中一个。

现在让我们为此添加一些数字。你已经测量了 100 人的疾病，你得到以下结果：

真阳性（TP）：12

误报（FP）：4

真阴性（TN）：76

假阴性（FN）：8

要使用混淆矩阵显示这一点：

然后，

F P R = \frac{F P}{F P + T N} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5 %

$FPR = \frac{FP}{FP + TN} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5\%$

F D R = \frac{F P}{F P + T P} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25 %

$FDR = \frac{FP}{FP + TP} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25\%$

换句话说，

FPR 告诉您，在没有患病的人中，有 5% 的人被确定为患病。FDR 告诉您，25% 的被确定患有该疾病的人实际上并未患有该疾病。

根据@amoeba 的评论进行编辑（也是上例中的数字）：

为什么区分如此重要？在您链接到的论文中，Storey 和 Tibhshirani 指出，在全基因组研究中非常关注 FPR（或 I 型错误率），这导致人们做出有缺陷的推论。这是因为一旦你通过修复 FPR 找到显着结果，你真的，真的需要考虑你的显着结果中有多少是不正确的。在上面的例子中，25% 的“显着结果”是错误的！ $n$

[旁注：维基百科指出，尽管 FPR 在数学上等同于第一类错误率，但它在概念上被认为是不同的，因为一个通常是先验设置的，而另一个通常用于衡量测试后的性能。这很重要，但我不会在这里讨论]。

为了更完整：

显然，FPR 和 FDR 并不是您可以使用混淆矩阵中的四个量计算的唯一相关指标。在许多可能在不同情况下有用的指标中，您可能会遇到两个相对常见的指标：

真阳性率 (TPR)，也称为敏感性，是被确定为患有该疾病的人的比例。

T P R = \frac{T P}{T P + F N}

$TPR = \frac{TP}{TP + FN}$

真阴性率 (TNR)，也称为特异性，是被确定为未患病的未患病人群的比例。

T N R = \frac{T N}{T N + F P}

$TNR = \frac{TN}{TN + FP}$

您应该检查https://en.wikipedia.org/wiki/Confusion_matrix中的表格。请注意 FPR 是垂直放置的，而 FDR 是水平放置的。

如果您的原假设为真但您拒绝它，则会发生 FP
如果您预测了一些重要的事情，但您不应该预测，就会发生 FD

其它你可能感兴趣的问题

上一篇尽管我们可以将每个值除以向量的总和，但为什么要使用 softmax 函数来计算概率？下一篇模拟磁盘上的均匀分布

FPR（误报率​​）与 FDR（误报率​​）

FPR（误报率）与 FDR（误报率）