传统上,逻辑回归函数的拟合使用最大似然来解释。是否也可以基于最小二乘或基于错误分类误差来拟合逻辑回归函数,或者这不可能/有缺点?
逻辑回归:最大似然与错误分类
可以通过最小化分类误差来估计逻辑回归模型,但通常没有理由这样做!你为什么要这样做?
但是,这样的问题之前已经在这里提出过,所以我不会重写答案,这个问题可以找到很好的答案: 逻辑回归:最大化真阳性 - 假阳性
基本上,最小化错误分类错误相当于使用不是正确评分规则的评分函数,请参阅: https ://en.wikipedia.org/wiki/Scoring_rule 如果错误分类被某些参数向量最小化,它也将被许多其他值最小化在第一个附近. 换句话说,标准函数在最大值附近是平坦的!为了看到最后一个事实,我们探索了与评分规则的联系(参见上面的维基)。我们专门研究只有二进制变量的情况,可能值为 0 或 1,分布由概率向量给出. 设随机变量为, 预测者进行概率预测,一个概率向量。让是一个得分函数。
这意味着如果预测者预测, 然后被观察到,他得到奖励. 那么这个奖励就有了期望值 如果这个期望最大化(在) 通过预测. 如果该最大值是唯一的,则它是严格正确的。
尝试最小化错误分类率对应于使用以下评分函数:
这就是使用它不会导致非常有效的学习的原因!所以应该避免。
总之,是的,但它不再是逻辑回归。
逻辑回归损失函数(即负对数似然)本质上是对数几率的回归。将其更改为最小二乘损失函数将使其成为线性回归,这将失去三件事:(i)回归系数的对数赔率解释和(ii)模型预测解释为对数赔率(或取幂时) ,作为概率)(iii)线性回归不会将模型预测限制在 0 和 1 之间,因此它可以很容易地做出 <0 或 >1 的预测。也就是说,对于许多现实世界的应用程序,简单地使用 0/1 响应(输出,DV)最小化最小二乘标准效果很好,因为有足够的噪声等,因此模型永远不会接近 0 或 1(sigmoid 函数大约 0.5 很好地近似为一条直线)。
对于错误分类错误,该损失函数不可微且非凸(也称为 0/1 损失),因此很难有效地最小化。因此,支持向量机和逻辑回归分别最小化了两个凸代理损失函数,即铰链损失和逻辑损失,这可以看作是 0/1 损失(凸松弛)的近似值。
我相信您可以通过引入一类随机效应混合分布来降低错误分类的概率。使用这种方法,您可以开发一个全似然模型,其中包括错误分类的影响 [参考文献 1、2、3]。
但是,应用这种建模方法存在两个主要挑战:
- 放宽对有害参数混合分布的假设
- 确定模型验证的效率和可靠性
最后,您可能希望查看半参数最大似然算法,例如 [Ref 4]。
- 赖斯,KM(2004 年)。Rasch 模型的条件方法和混合方法与匹配的病例对照研究之间的等效性及其应用。美国统计协会杂志,99(466),510-522。
- Roeder, K., Carroll, RJ 和 Lindsay, BG (1996)。具有协变量误差的病例对照研究的半参数混合方法。美国统计协会杂志,91(434),722-732。
- 赖斯,K.(2003 年)。匹配病例对照研究中二元暴露错误分类的完全似然方法。医学统计,22(20),3177-3194。
- 谢弗,德国之声(2001 年)。测量误差模型回归的半参数最大似然。生物识别,57(1),53-61。