不要使用准确性!使用正确的评分规则!
您提出的建议与接受者操作曲线下的面积 ROCAUC 有关。ROC 在所有可能的阈值截止值处绘制灵敏度和特异性(实际上是 1-特异性)。
听起来您会选择具有最高准确度值的模型,而不管该阈值如何。如果最佳准确度来自逻辑回归,阈值为0.6,去那个模型。如果最佳准确度来自 KNN,阈值为0.07,去那个模型。
听起来不错,对,选择最准确的模型?
这是不正确的,听起来很诱人。以下是范德比尔特大学教授和 Cross Validated(统计堆栈)的活跃成员关于此主题的几篇博客文章。
https://www.fharrell.com/post/class-damage/
https://www.fharrell.com/post/classification/
(Frank Harrell 甚至有一篇关于 ROCAUC 在模型比较方面存在缺陷的帖子。)
准确性是一个有缺陷的性能指标。任何基于阈值的性能指标都有相当大的缺陷。请参阅有关该主题的出色帖子。
无耻地,我将链接一个我在类似主题上发布的问题,该问题由同一个人以相同的主旨回答。这是他关于这个主题的另一篇文章。
(我打算接受这个答案,但还不想让其他人发表他们的想法。)
一个简单的正确评分规则可以帮助您入门,这是 Brier 评分,基本上是平方损失。取上课的概率1,减去真实类(0或者1),将该值平方,然后将每个预测的这些值相加。
Brier(y,p^)=∑i=1N(yi−p^i)2
yi是真正的班级,0或者1, 和p^i是预测概率(这很可能是在课堂上的预测概率1)。如果您的软件为您提供一流的概率,您可以调整 Brier 分数0.