这个图表的名称是什么,显示了假阳性率和真阳性率,它是如何生成的?
该图是ROC 曲线,并针对不同的阈值计算(假阳性率,真阳性率)点。假设您有一个统一的效用函数,最佳阈值是最接近 (0, 1) 的点的阈值。
要生成 ROC 曲线(= 接收器操作特征曲线):
假设我们有一个概率二元分类器,例如逻辑回归。在呈现 ROC 曲线之前,必须先了解混淆矩阵的概念。当我们进行二元预测时,可能会出现 4 种类型的错误:
- 我们预测 0 而我们应该让类实际上是 0:这被称为True Negative,即我们正确地预测类是负的 (0)。例如,防病毒软件不会将无害文件检测为病毒。
- 我们预测 0 而我们应该让类实际上是 1:这被称为False Negative,即我们错误地预测类是负的 (0)。例如,防病毒软件无法检测到病毒。
- 我们预测 1 而我们应该让类实际上是 0:这被称为False Positive,即我们错误地预测类是正的 (1)。例如,防病毒软件将无害文件视为病毒。
- 我们预测 1 而我们应该让类实际上是 1:这称为True Positive,即我们正确地预测类是正的 (1)。例如,防病毒软件正确地检测到了病毒。
为了得到混淆矩阵,我们检查了模型所做的所有预测,并计算这 4 种错误中每种错误发生的次数:
在这个混淆矩阵的例子中,在被分类的 50 个数据点中,45 个被正确分类,5 个被错误分类。
由于要比较两个不同的模型,使用单个度量而不是多个度量通常更方便,因此我们从混淆矩阵计算两个度量,稍后我们将它们合并为一个:
- 真阳性率(TPR),又名。灵敏度、命中率和召回率,定义为. 直观地说,这个指标对应于被正确认为是正的正数据点相对于所有正数据点的比例。换句话说,TPR 越高,我们将错过的正数据点越少。
- 误报率(FPR),又名。fall-out,定义为. 直观地说,这个指标对应于被错误地认为是正的负数据点相对于所有负数据点的比例。换句话说,FPR 越高,我们将错误分类的负面数据点就越多。
要将 FPR 和 TPR 组合成一个指标,我们首先计算具有许多不同阈值的前两个指标(例如) 对于逻辑回归,然后将它们绘制在一个图表上,横坐标为 FPR 值,纵坐标为 TPR 值。得到的曲线称为 ROC 曲线:
在该图中,蓝色区域对应于接收器操作特征 (AUROC) 曲线下的区域。对角线上的虚线表示随机预测变量的 ROC 曲线:它的 AUROC 为 0.5。随机预测器通常用作基线,以查看模型是否有用。
如果您想获得一些第一手经验:
Morten 的回答正确地解决了标题中的问题——该图确实是一条 ROC 曲线。它是通过绘制一系列假阳性率 (FPR) 与其相应的真阳性率来产生的。
但是,我想回答您在帖子正文中提出的问题。
如果将一种方法应用于数据集,则它具有一定的 FP 率和一定的 FN 率。这是否意味着每种方法都应该有一个点而不是曲线?当然,有多种方法可以配置一个方法,产生多个不同的点,但我不清楚这个速率的连续统一体是如何产生的,或者它是如何产生的。
许多机器学习方法都有可调整的参数。例如,逻辑回归的输出是预测的类成员概率。将预测概率高于某个阈值的所有点分类到一个类,其余分类到另一个类的决策规则可以创建灵活的分类器范围,每个分类器具有不同的 TPR 和 FPR 统计信息。在随机森林的情况下也可以这样做,其中一个正在考虑树的投票,或 SVM,您正在考虑与超平面的有符号距离。
在您进行交叉验证以估计样本外性能的情况下,典型做法是使用预测值(投票、概率、有符号距离)来生成 TPR 和 FPR 序列。这通常看起来像一个阶跃函数,因为在每个预测值处通常只有一个点从 TP 移动到 FN 或 FP 到 FN(即所有样本外预测值都是唯一的)。在这种情况下,虽然存在用于计算 TPR 和 FPR 的连续选项,但 TPR 和 FPR 函数将不是连续的,因为只有有限多个样本外点,因此生成的曲线将具有阶梯状外观.
来自维基百科:
ROC 曲线最初由二战期间的电气工程师和雷达工程师开发,用于检测战场上的敌方物体,并很快被引入心理学以解释对刺激的感知检测。从那时起,ROC 分析已在医学、放射学、生物识别学和其他领域使用了数十年,并且越来越多地用于机器学习和数据挖掘研究。
ROC 也称为相对运行特性曲线,因为它是两个运行特性(TPR 和 FPR)随标准变化的比较。
您可以将这两个轴视为二元分类器运行所必须产生的成本。理想情况下,您希望尽可能低的误报率和尽可能高的真阳性率。也就是说,您希望二进制分类器为尽可能多的真阳性调用尽可能少的假阳性。
具体来说,想象一个分类器可以通过测量某些生物标志物的数量来检测是否存在某种疾病。想象一下,生物标志物的值在 0(不存在)到 1(饱和)的范围内。什么水平可以最大限度地检测疾病?可能的情况是,在某个水平之上,生物标志物会将某些人分类为患有该疾病,但他们没有患有该疾病。这些都是误报。当然,有些人在他们确实患有这种疾病时会被归类为患有这种疾病。这些是真正的积极因素。
ROC 通过考虑所有可能的阈值来评估所有阳性中真阳性的比例与假阳性的比例。