假设我已经拟合了一个预测的 Logistic 回归模型一种被编码为的疾病的存在, 如果不是那么. AUROC(roc 曲线下的面积)显示出很高的辨别力说:. 因此,任何随机选择的患有疾病的人都将比没有疾病的人具有更高的预测概率 -的时间。
如果回归模型给了我一个主题预测概率为与其他科目相比,这似乎是一个很高的概率。
说有是否正确机会有病吗?
你能给我一些例子,告诉我如何利用我的回归模型,知道它具有很强的区分能力吗?
假设我已经拟合了一个预测的 Logistic 回归模型一种被编码为的疾病的存在, 如果不是那么. AUROC(roc 曲线下的面积)显示出很高的辨别力说:. 因此,任何随机选择的患有疾病的人都将比没有疾病的人具有更高的预测概率 -的时间。
如果回归模型给了我一个主题预测概率为与其他科目相比,这似乎是一个很高的概率。
说有是否正确机会有病吗?
你能给我一些例子,告诉我如何利用我的回归模型,知道它具有很强的区分能力吗?
说有 85% 的可能性是正确的有病吗?
不。假设您的模型是正确的并且经过良好校准,那么有疾病是模型的估计有这种病。
AUROC(ROC 曲线下的面积,以区别于精确召回曲线下不太常见的面积)的含义正是您所说的:给定一个随机选择的患病者和一个随机选择的健康人,有一个您的模型有 85% 的机会将患病者的排名高于健康人。
你能给我一些例子,告诉我如何利用我的回归模型,知道它具有很强的区分能力吗?
假设您需要构建一个无需人工干预即可做出二元决策的过程。例如,出于某种目的,以自动方式报告测试结果。可以通过将每个人标记为患病来找到所有患病的个体(完美的 TPR),但您的 FPR 也将是 1.0。或者,您可以不捕获任何误报,但代价是不捕获任何患病个体。
ROC 曲线比较这两个极端之间的权衡,即任何决策值截止的估计 TPR 和 FPR。ROC 曲线通常由 AUROC 总结,但这并不意味着具有更高 AUROC 的模型在特定决策值下必然具有更好的 TPR/FPR 折衷。
在机器学习社区中比较作为 AUROC 基础的两个或多个替代模型是很常见的,但这并不意味着 AUROC 在一般情况下或什至对于该机器学习项目的特定目的都是有用的。
如果回归模型给我一个预测概率为 0.6 的受试者 AA,与其他受试者相比,这似乎是一个高概率。
说 AA 有 85% 的几率患有这种疾病是否正确?
答案是不”。AUROC 不关心您的概率预测的实际值,只关心您预测的顺序。您可以将所有预测概率除以 10,仍然得到相同的 AUC。事实上,您可以提出一些完全独立于您的预测概率的排序标准,并且仍然可以获得 AUC 分数。
为了更好地直观地了解如何解释 AUROC,查看少量样本的 ROC 曲线会有所帮助。这是我掀起的一个:

请注意,向右的每一步代表一个“错误”的猜测,向上的每一步代表一个“正确”的猜测。(更大的步数意味着更多的猜测。)我在右侧填写了一个灰色区域(即“错误猜测”)。AUC 只是所有错误猜测的所有黑色矩形的总和。矩形的高度是迄今为止列出的“真实”样本的比例。也就是说,对于导致矩形水平步长的“错误”样本个体,如果我们停在那个个体上,那么真正的阳性率由矩形的高度给出。矩形的宽度是我们在矩形中进行水平步长时运行的“错误”猜测的比例。
高亮矩形的面积可以解释如下。假设我们随机选择一个“假”样本个体。选择该样本的概率乘以该样本之前所有选择的真阳性率,由深色矩形的面积给出。因此,黑色矩形的总和是假样本之前的预期真阳性率,其中期望被所有假样本取代。换句话说,如果您随机选择一个错误的样本个体并在该个体处停止您的“选择”列表,则 TPR 的预期值直到该样本是 AUC。
当然,TPR 是随机选择的正样本出现在您的“选择”列表中的概率。因此,另一种解释 AUC 的方法是,如果您随机选择一个正样本和一个负样本,则 AUC 是正样本在负样本之前出现在您的列表中的预期概率。
至于你的最后一个问题:
根据我之前所说,AUROC 是您对样本进行排名的指标,而不是您的概率预测的好坏。请记住,概率结果的任何单调函数(例如除以 10,或取它们的 sigmoid)都会产生完全相同的 ROC 曲线。所以一个好的 AUROC 不应该告诉你如何衡量一个事件的概率。(例如,如果您的疾病分类 AUROC 非常高,并且您预测某人有 99% 的患病几率,则该人不一定表现得好像他们几乎肯定患有疾病。可能是他们只有 5% 的机会,但你的模型仍然很擅长确定他们的机会远高于其他人。)因为 AUC 是一个很好的排名指标,它的主要用途应该是你的优先级候选人。例如,如果您有一个用于疾病分类的 AUC 较高的模型,那么您的预测结果应该确定您首先选择谁进行进一步的诊断或治疗。