为什么不使用 MSE 而不是当前的逻辑回归?

人工智能 分类 逻辑回归
2021-11-12 16:10:14

在观看 Andrew Ng 在 Coursera 上的机器学习课程时,在逻辑回归周,成本函数比线性回归的成本函数要复杂一些,但绝对不是那么难。

但这让我开始思考,为什么不对逻辑回归使用相同的成本函数呢?

因此,成本函数将是12mim|h(xi)yi|2, 在哪里h(xi)是我们的假设function(sigmoid(Xθ)),m是训练样本的数量和xiyi是我们的ith训练例子?

3个回答

均方误差 (MSE),J(θ)=12mi=1m(hθ(xi)yi)2, 不像分类的成本函数那样合适,因为 MSE 对不适合分类的数据做出了假设。虽然,作为优化目标,即使在分类问题中,仍然可以尝试最小化 MSE,因此仍然可以学习参数θ.

新的成本函数具有更好的收敛特性,因为它更符合目标。

有关从概率角度解释这些损失函数的精确数学公式,请参见链接。

请注意,绝对值是多余的,因为x:x20.

我希望这可以澄清问题。

我的意思是你在技术上可以(它不会破坏或其他东西)但是,交叉熵更适合分类,因为它会惩罚错误分类错误:看看函数:当你错了,损失会无穷大:在此处输入图像描述

你要么来自一个班级,要么来自另一个班级。MSE 是为回归而设计的,你有细微差别:你接近目标有时就足够了。您应该尝试两者,您会发现交叉熵的性能会好得多。

在分类设置中最小化 MSE 是完全合理的,因为它也被称为Brier 分数,并且是一个适当的评分规则,这意味着如果网络输出类成员的条件概率,它就会被最小化。这并不奇怪,因为最小化 MSE 会导致模型输出目标分布的条件均值的估计值,对于 1-of-c 编码,该模型是类成员资格的条件概率。您甚至可以使用 MSE 来训练输出层中具有逻辑或 softmax 激活函数的网络,以便遵守通常的区间约束[0,1]并求和为一。

然而,与交叉熵度量相比,MSE 对非常自信的错误分类的惩罚要轻得多。这是好事还是坏事取决于应用程序的需求。如果您最感兴趣的是 p=0.5 决策边界,那么您可能不希望模型资源用于处理高度置信度的错误分类,这些错误分类距离决策边界很远,并且对其影响不大。这是支持向量机等纯判别方法的很大一部分理由。