Calibration
我在阅读预测模型时遇到了一个新术语。
你能帮我理解它与Discrimination
.
我们构建 ML 模型来区分两个或多个类
但是calibration
说“该模型具有良好的判别能力但校准/校准能力较差”是什么意思?
我以为我们通常只在两个班级之间寻找分离。
请问可以用一个简单的例子来帮助我吗?
Calibration
我在阅读预测模型时遇到了一个新术语。
你能帮我理解它与Discrimination
.
我们构建 ML 模型来区分两个或多个类
但是calibration
说“该模型具有良好的判别能力但校准/校准能力较差”是什么意思?
我以为我们通常只在两个班级之间寻找分离。
请问可以用一个简单的例子来帮助我吗?
歧视是类别的分离,而校准则根据人群的风险为我们提供分数。
例如,我们想要预测 100 个人的疾病,我们知道 100 个人中只有 3 个人患有这种疾病。我们从我们的模型中得到他们的概率。由于良好的预测能力,我们的模型预测 70 人的概率在 0-0.05 和 30 人的 0.95-1 之间。这是一个很好的类之间的区分。我们现在知道,仅考虑歧视就有 30 人处于高风险之中。但我们也知道,每 100 人中只有 3 人得此病,患病率为 3%。我们使用 3% 的患病率来校准我们的分数,这将给出基于 100 人的实际风险。这意味着,0.95 x 0.03 = 0.0285 是他们对该疾病的实际风险。
这是一种非常粗略的方法,有先进的技术,如 Kernels、Platt Scaling 等,
校准,观察和预测风险之间的一致性,在预后设置中更重要,因为我们想预测目标人群的未来风险,而截距(疾病流行率)非常重要
区分有病和无病的人在诊断环境中更为重要,因为我们希望在预定义的切点下使用一些测试/因素来诊断有病/无病的人。良好的辨别力意味着患有真正疾病的人总是比没有疾病的人有更高的预测风险。截距不感兴趣。
有时该模型可能会高估/低估风险(校准不佳),但它仍可能将患有疾病的人和未患病的人区分开来(良好的辨别力)。反之亦然 - 模型可能具有良好的校准,但无法将案例与控制区分开来。
假设我们想预测一些人的结果。
辨别力:模型区分有事件的人和没有事件的人的能力。校准:观察到的事件的频率与预测概率之间的一致性。
示例 1:模型正确估计患者 X 的事件风险是患者 Y 的两倍。但是,模型估计患者 X 的事件概率为 20%,Y 为 10%,而真实的概率是 2% 和 1%。该模型具有良好的辨别力,但校准较差。
示例 2:模型估计 X 和 Y 的事件概率为 1.5%。该模型经过良好校准,但无法告诉您是 X 还是 Y 更有可能发生该事件。该模型校准得很好,但它的辨别力很差。