在逻辑回归中使用 MSE 代替 log-loss

机器算法验证 物流 最大似然 无偏估计器 毫秒
2022-03-24 08:06:48

假设我们用 MSE 替换逻辑回归的损失函数(通常是对数似然)。也就是说,对数优势比仍然是参数的线性函数,但最小化估计概率和结果之间的平方差之和(编码为 0 / 1):

logp1p=β0+β1x1+...+βnxn

并最小化而不是(yipi)2[yilogpi+(1yi)log(1pi)]

当然,我理解为什么在某些假设下对数似然是有意义的。但是在机器学习中,通常不做假设,MSE 完全不合理的直观原因是什么?(或者是否存在 MSE 可能有意义的情况?)。

2个回答

简短的回答是,似然理论的存在是为了指导我们找到最佳解决方案,最大化似然、惩罚似然或贝叶斯后验密度以外的东西会导致次优估计。其次,最小化误差平方和会导致对真实概率的无偏估计。在这里,您不需要无偏估计,因为拥有该估计可能是负数或大于一。为了适当地约束估计,通常需要在概率(而不是 logit)尺度上获得稍微有偏差的估计(朝向中间)。

不要相信机器学习方法不会做出假设。这个问题与机器学习关系不大。

请注意,单个比例是真实概率的无偏估计,因此只有截距的二元逻辑模型提供无偏估计。个互斥类别的单个预测变量的二元逻辑模型个无偏估计的概率。我认为利用可加性假设并允许用户请求数据范围之外的估计值的模型(例如,连续的单个预测变量)在概率尺度上会有一个小的偏差,以便尊重约束。kk[0,1]

尽管弗兰克哈雷尔的回答是正确的,但我认为它错过了问题的范围。您的问题的答案是肯定的,MSE 在 ML 非参数场景中是有意义的。逻辑回归的 ML 等价物是线性感知器,它不做任何假设,并且使用 MSE 作为成本函数。它使用在线梯度下降来进行参数训练,并且由于它解决了凸优化问题,因此参数估计应该处于全局最优状态。这两种方法之间的主要区别在于,使用非参数方法您不会获得置信区间和 p 值,因此您不能将模型用于推理,而只能将其用于预测。

线性感知器不做任何概率假设。假设数据是线性可分的,但这不是模型的假设。MSE 理论上可能会受到异方差的影响,但实际上这种影响会被激活函数抵消。