我很困惑为什么 ROC 在ROC 分析简介中描述的类分布下是不变的。我无法理解为什么测试集中正负类的比例不会影响 ROC 曲线的示例。
还要引用这篇文章,它说:
为了说明这一点,首先让我们从一种非常好的方式来定义精确度、召回率和特异性。假设您有一个名为 1 的“正”类和一个名为 0 的“负”类 是您对真实类标签的估计。然后: 要注意的关键是敏感性/召回率和特异性构成 ROC 曲线的概率是基于真实类别标签的概率。因此,无论是多少,它们都是相同的。
我无法将这几个概念调和在一起,可能是由于统计严谨性的差距。我非常感谢有人给我一个更详细的例子,说明为什么以上是真的。
更具体地说,有人可以解释上面的报价吗?特别是,以 P(Y=1) 为条件意味着什么?这个P指的是什么?以及为什么以此为条件意味着 ROC 对类分布不敏感。另外,我确实阅读了几乎所有与此问题相关的帖子,但对于 ROC 曲线是否对类别不平衡敏感或不敏感,并没有达成共识。
我读过的帖子:我知道很多,我什至设法使用纯 python 代码实现 ROC 曲线,没有问题。但似乎即使我能实现它,我仍然没有完全理解它。
中华民国的解读
AUROC 的优缺点
- Precision-Recall 与 ROC 曲线的关系
- AUROC 的缺点。
- ROC 与 Precision-and-recall 曲线
- 不平衡数据集上的 ROC 与 Precision-recall 曲线
- 关于为什么 AUC 会产生误导
最新了解 2021 年 9 月 21 日:
正如弗兰克哈雷尔教授在下面的帖子中提到的那样,我进一步说:
Y 取 0 和 1,ROC 图下的面积(称为该值)以简化的方式表示,如果您随机抽取一个正样本和一个负样本,则您的正样本排名更高的概率(读:更高的概率)比负样本是。
现在用他的类比,老师是负样本,足球明星是正样本,所以现在你以 Y = 0 和 Y = 1 为条件。一旦你以条件,(特异性/TNR 或 1-FPR ) 那么您的样本空间有效地从整个样本群体减少到仅,由此,我直观地认为没有作用,因此不会以任何方式影响 FPR。类似的概念可以应用于 TPR。因此,TPR 和 FPR 都不依赖于整个样本空间(测试集的整个分布(?)),因此不会受到测试集(?)的类分布变化的影响。
TODO:解释为什么精度取决于类分布。