逻辑回归校准曲线中欠拟合和过拟合的特征

机器算法验证 回归 物流 过拟合 校准
2022-03-29 15:22:33

我的困惑源于阅读以下论文

http://www.bmj.com/content/351/bmj.h3868

它在其摘要中指出(他们后来展示了一项符合该主张的实证研究)-“过度拟合的模型倾向于低估低风险患者的事件概率并高估高风险患者的事件概率”

我对这个声明的一般性感到困惑。我看过许多将过度拟合描述为建模/捕获噪声的模型的卡通/数字,但对我来说,这种噪声如何必然会导致高估高风险患者的风险和低估低风险患者的风险并不直观。为什么过拟合模型不能以低估高危患者风险的方式捕获噪声?他们的说法有数学证明吗?

对于我的问题的第二部分,我想问一下,如果他们提出的说法是正确的,那么欠拟合模型的校准图是否会反过来(观察到的 v/s 预测的斜率<1;低估高风险风险,高估低风险风险?)。同样,我无法直观地预测为什么更简单的欠拟合模型必然会生成可预测的校准曲线。

1个回答

对我来说,这种噪音如何必然导致高估高风险患者的风险和低估低风险患者的风险对我来说并不直观。

它不是“必然”,而是“倾向于”:

过度拟合的模型倾向于[...]

为什么过拟合模型不能以低估高危患者风险的方式捕获噪声?

它可以,而且偶尔会。但它不这样做,也不能系统地这样做。如果是这样,它不会过拟合,而是欠拟合。它将系统地给出比最优模型更低的估计(即更高的不确定性,正如@gung 他/她的评论所说)。

将函数拟合到数据意味着最小化一些错误度量。函数的自由参数(系数)越多,它就越能逼近经验数据,从而减少误差。

现在,对于低风险患者,我们将一般!有更多的非事件,并且过度拟合的模型将更好地接近非事件级别(例如零),因为它试图最小化错误。有时,即使对于低风险患者,我们也会遇到事件,并且我们的过度拟合模型也可能会选择该噪声,但是由于其灵活性(被过度拟合),随着我们远离该观察,它会迅速回到零。镜像发生在高危患者身上:那里的事件多于非事件,并且过度拟合的模型将尝试近似这些。

为了给您一些直觉,请观察以下人工数据集和拟合概率:

过拟合的例子

(两个正态分布的类,由简单逻辑回归(绿色)、带有poly(x, 3)预测变量(橙色)和带有poly(x, 5)预测变量(红色)的逻辑回归拟合)

如您所见,严重过度拟合的红色曲线是x<0几乎始终低于绿色(最佳)一峰,除了周围的一个单峰x=0.5,它在“事件”一侧拾取噪音。对于“高危患者”则相反:红色曲线几乎总是在绿色曲线之上,除了周围的一些噪音x=+0.5.