为什么逻辑回归可以很好地校准,以及如何破坏它的校准?

机器算法验证 回归 物流 校准
2022-03-20 11:40:55

在关于概率校准的 scikit learn 文档中,他们将逻辑回归与其他方法进行了比较,并指出随机森林的校准不如逻辑回归。

为什么逻辑回归得到很好的校准?一个人怎么会破坏逻辑回归的校准(这不是一个人想要的——只是作为一种练习)?

2个回答

尽管这个问题及其第一个答案似乎集中在逻辑回归模型校准的理论问题上,但问题是:

怎么会破坏逻辑回归的校准......?

对于本页的未来读者,在实际应用方面值得关注。我们不应该忘记逻辑回归模型必须明确指定,并且这个问题对于逻辑回归可能特别麻烦。

首先,如果类成员的对数几率与模型中包含的预测变量不是线性相关,那么它就不会被很好地校准。Harrell关于二元逻辑回归的第 10 章用了大约 20 页的篇幅介绍“模型拟合的评估”,以便在实践中利用“最大似然估计量的渐近无偏性”,正如@whuber 所说。

其次,模型规范是逻辑回归中的一个特殊问题,因为它具有固有的遗漏变量偏差,这对于那些具有普通线性回归背景的人来说可能是令人惊讶的。正如该页面所说:

即使遗漏变量与包含变量不相关,遗漏变量也会使包含变量的系数产生偏差。

该页面还对为什么会出现这种行为进行了有用的解释,并对相关的、易于分析的概率模型进行了理论解释因此,除非您知道已包含与类成员相关的所有预测变量,否则您可能会在实践中遇到指定错误和校准不佳的危险。

关于模型规范,很有可能像随机森林这样的基于树的方法,它不假设整个预测变量值范围内的线性,并且固有地提供了发现和包括预测变量之间的相互作用的可能性,最终会得到更好的 -校准模型在实践中优于未充分考虑交互项或非线性的逻辑回归模型。关于遗漏变量偏差,我不清楚评估类成员概率的任何方法是否可以充分处理该问题。

逻辑回归是一种分类方法,它基本上通过拟合参数如果使用适当的损失函数来学习预测概率,那么只要逻辑回归有足够的容量(输入特征),它就有可能学习二元事件概率的无偏估计。πθ(x)θ

对数损失允许这种无偏估计。考虑对数损失函数只是伯努利分布的负对数似然这一事实。给定变量的最大似然估计是无偏的在对某个输入空间进行分类的情况下,可以想象对于中的所有点都有一个伯努利分布。大多数情况下,每个伯努利分布只有 1 个观测值,位于对所有观察到的伯努利分布联合应用最大似然估计zBer(p)pzXXyixiyiBer(π(xi))应用几个约束由于所有这些约束都会导致无偏估计,并且只要函数足够灵活以适应真实的潜在概率函数,那么学习过程是一致的,并且会在你得到时收敛到最优模型更多数据。因此,限制模型容量(例如更少的特征)可能会通过增加最佳可学习模型和真实模型之间的距离来阻碍逻辑回归的校准。πθπθπ

对逻辑回归使用不正确的观察模型将导致未校准的概率。使用正态分布对二元事件建模是不合适的,不应与逻辑回归结合使用。正态分布观测模型对应的损失函数是均方误差。因此,使用 MSE 损失肯定会阻碍其校准。