过拟合逻辑回归模型

机器算法验证 物流 过拟合 回归策略
2022-02-13 19:23:07

是否有可能过度拟合逻辑回归模型?我看到一个视频说如果我的ROC曲线下面积高于95%,那么它很可能会过拟合,但是是否有可能过拟合逻辑回归模型?

4个回答

是的,您可以过度拟合逻辑回归模型。但首先,我想谈谈关于 AUC(接收器操作特性曲线下的面积)的观点:AUC 从来没有通用的经验法则。

AUC随机抽样的阳性(或病例)比阴性(或对照)具有更高标记值的概率,因为 AUC 在数学上等同于 U 统计量。

AUC不是预测准确性的标准化度量。高度确定性事件可能具有 95% 或更高的单一预测 AUC(例如在受控机电一体化、机器人或光学中),一些复杂的多变量逻辑风险预测模型具有 64% 或更低的 AUC,例如乳腺癌风险预测,而那些是相当高的预测准确性。

与功效分析一样,合理的 AUC 值是通过收集先验研究的背景和目的的知识来预先指定的。医生/工程师描述了他们想要什么,而您(统计学家)为您的预测模型解决目标 AUC 值。然后开始调查。

确实有可能过度拟合逻辑回归模型。除了线性相关性(如果模型矩阵的秩不足),您还可以拥有完美的一致性,或者说拟合值与 Y 的关系图可以完美地区分案例和控制。在这种情况下,您的参数尚未收敛,而只是驻留在边界空间上的某个位置,从而产生的可能性。然而,有时 AUC 是 1 只是随机的机会。

向模型中添加过多的预测变量会产生另一种类型的偏差,那就是小样本偏差。一般来说,逻辑回归模型的对数优势比倾向于 2β 的偏差因子,优势比的不可折叠性和零细胞计数。在推论中,这是使用条件逻辑回归来处理的,以控制分层分析中的混杂变量和精度变量。然而,在预测中,你是 SooL。当你有,()时没有可推广的预测,因为你保证已经建模了“数据”而不是那个时候的“趋势”。高维(大2βpnπ(1π)π=Prob(Y=1)p) 使用机器学习方法更好地预测二元结果。了解线性判别分析、偏最小二乘法、最近邻预测、提升和随机森林将是一个很好的起点。

简而言之……过度拟合的逻辑回归模型具有很大的方差,这意味着决策边界会因变量幅度的微小变化而发生很大变化。考虑下图最右边的一个是过度拟合的逻辑模型,它的决策边界没有很大。起起落落,而 middel 恰好适合它具有适度的方差和适度的偏差。左边是欠拟合的,它具有高偏差但方差非常小。还有一件事_过度拟合的回归模型具有太多特征,而欠拟合模型的特征却很少。的特征。 显示欠拟合、恰好拟合和过拟合逻辑回归模型的图像。 蓝色标记显示决策边界。

即使您适合整个人口(如果人口是有限的),您也可以使用任何方法进行过度拟合。

该问题有两种通用解决方案:

  1. 惩罚最大似然估计(岭回归、弹性网、套索等)和

  2. 使用带有贝叶斯模型的信息先验。

什么时候Y信息有限(例如是二元的或分类但无序的),过度拟合更为严重,因为只要信息量少,就好像样本量更小。例如,一个大小为 100 的样本来自一个连续的Y可能具有与来自二进制文件的大小为 250 的样本相同的信息Y,出于统计功效、精度和过拟合的目的。二进制Y假设一个全有或全无的现象并具有 1 位信息。许多连续变量至少有 5 位信息。

除了逻辑回归之外,是否有任何模型不可能过度拟合?

过度拟合从根本上说是因为您适合样本而不是整个人群。您的样本的伪影看起来像是总体的特征,但它们不是,因此过度拟合会造成伤害。

这类似于外部有效性的问题。仅使用您试图获得的模型,该模型可以在您看不到的真实总体上为您提供最佳性能。

当然,某些模型形式或过程比其他模型更容易过拟合,但没有模型能够真正避免过拟合,不是吗?

即使是样本外验证、正则化程序等也只能防止过度拟合,但没有灵丹妙药。事实上,如果要估计一个人在基于拟合模型做出真实世界预测的信心,那么必须始终假设确实发生了某种程度的过度拟合。

在多大程度上可能会有所不同,但即使是在保留数据集上验证的模型也很少会产生与在保留数据集上获得的结果相匹配的野生性能。而过拟合是一个很大的诱因。