机器算法验证 - 给定真阳性、假阴性率，你能计算出假阳性、真阴性吗？ - 吾爱随笔录

给定真阳性、假阴性率，你能计算出假阳性、真阴性吗？

机器算法验证鹏混淆矩阵敏感性-特异性

2022-01-20 13:23:20

我的价值观True Positive (TP)如下False Negative (FN)：

TP = 0.25
FN = 0.75

根据这些值，我们可以计算False Positive (FP)和True Negative (TN)吗？

4个回答

在这个领域有相当多的术语混乱。就个人而言，我总是发现回到混淆矩阵来思考这个问题很有用。在分类/筛选测试中，您可以有四种不同的情况：

                      Condition: A        Not A

  Test says “A”       True positive   |   False positive
                      ----------------------------------
  Test says “Not A”   False negative  |    True negative

在该表中，“真阳性”、“假阴性”、“假阳性”和“真阴性”是事件（或它们的概率）。因此，您所拥有的可能是真阳性率和假阴性率。区别很重要，因为它强调两个数字都有一个分子和一个分母。

事情变得有点令人困惑的是，您可以找到“假阳性率”和“假阴性率”的几种定义，它们具有不同的分母。

例如，维基百科提供了以下定义（它们看起来很标准）：

真阳性率（或敏感性）： $TPR = TP/(TP + FN)$
误报率： $FPR = FP/(FP + TN)$
真阴性率（或特异性）： $TNR = TN/(FP + TN)$

在所有情况下，分母都是列总数。这也为他们的解释提供了线索：真阳性率是当真实值确实是 A 时测试说出“A”的概率（即，它是条件概率，以 A 为真为条件）。这并不能告诉您在调用“A”时正确的可能性有多大（即真阳性的概率，以测试结果为“A”为条件）。

假设假阴性率以相同的方式定义，我们有 $FNR = 1 - TPR$ （请注意，您的数字与此一致）。然而，我们不能直接从真阳性率或假阴性率中得出假阳性率，因为它们没有提供关于特异性的信息，即当“非 A”是正确答案时测试的行为方式。因此，您的问题的答案将是“不，这是不可能的”，因为您在混淆矩阵的右栏中没有任何信息。

然而，文献中还有其他定义。例如，Fleiss（比率和比例的统计方法）提供以下内容：

“[……] 假阳性率 [……] 是那些反应呈阳性但实际上没有患病的人的比例。”
“假阴性率 [...] 是那些在测试中反应为阴性的人中仍然患有这种疾病的人的比例。”

（他也承认之前的定义，但认为它们“浪费了宝贵的术语”，正是因为它们与敏感性和特异性有着直接的关系。）

参考混淆矩阵，这意味着 $FPR = FP / (TP + FP)$ 和 $FNR = FN / (TN + FN)$ 所以分母是行总数。重要的是，在这些定义下，假阳性率和假阴性率不能直接来自测试的敏感性和特异性。您还需要知道患病率（即，A 在感兴趣的人群中的频率）。

Fleiss 没有使用或定义短语“真阴性率”或“真阳性率”，但如果我们假设这些也是给定特定测试结果/分类的条件概率，那么@guill11aume 的答案是正确的。

无论如何，您需要小心定义，因为您的问题没有无可争议的答案。

编辑：请参阅 Gaël Laurans 的答案，该答案更准确。

如果您的真阳性率为 0.25，则意味着每次您判定为阳性时，您出错的概率为 0.75。这是您的误报率。同样，每次你判断为否定时，你有 0.25 的概率是正确的，这就是你的真实否定率。

如果“积极”和“消极”对手头的问题没有意义，那么这没有任何意义。我看到许多问题，其中“正”和“负”是对序数或连续变量的任意强制选择。FP、TP、sens、spec 仅对全有或全无现象有用。

http://www.statsdirect.com/help/default.htm#clinical_epidemiology/screening_test.htm

1) 真 +ve 和假 -ve 为 100% 2) 假 +ve 和真 -ve 为 100% 3) 真阳性和假阳性之间没有关系。

其它你可能感兴趣的问题

上一篇使用卡尔曼滤波器进行时间序列预测的 R 代码下一篇ArXiv 在统计界受欢迎吗？