人工智能 - 为什么不使用 MSE 而不是当前的逻辑回归？ - 吾爱随笔录

为什么不使用 MSE 而不是当前的逻辑回归？

人工智能分类逻辑回归

2021-11-12 16:10:14

在观看 Andrew Ng 在 Coursera 上的机器学习课程时，在逻辑回归周，成本函数比线性回归的成本函数要复杂一些，但绝对不是那么难。

但这让我开始思考，为什么不对逻辑回归使用相同的成本函数呢？

因此，成本函数将是 $\frac{1}{2m} \sum_{i}^m|h(x_i) - y_i|^2$ ，在哪里 $h(x_i)$ 是我们的假设 $\text{function}(\text{sigmoid}(X * \theta))$ , $m$ 是训练样本的数量和 $x_i$ 和 $y_i$ 是我们的 $ith$ 训练例子？

3个回答

均方误差 (MSE), $J(\theta) = \frac{1}{2m}\sum_{i=1}^m(h_\theta(x_i)-y_i)^2$ , 不像分类的成本函数那样合适，因为 MSE 对不适合分类的数据做出了假设。虽然，作为优化目标，即使在分类问题中，仍然可以尝试最小化 MSE，因此仍然可以学习参数 $\theta$ .

新的成本函数具有更好的收敛特性，因为它更符合目标。

有关从概率角度解释这些损失函数的精确数学公式，请参见链接。

请注意，绝对值是多余的，因为 $\forall x:x^2\geq0$ .

我希望这可以澄清问题。

我的意思是你在技术上可以（它不会破坏或其他东西）但是，交叉熵更适合分类，因为它会惩罚错误分类错误：看看函数：当你错了，损失会无穷大：

你要么来自一个班级，要么来自另一个班级。MSE 是为回归而设计的，你有细微差别：你接近目标有时就足够了。您应该尝试两者，您会发现交叉熵的性能会好得多。

在分类设置中最小化 MSE 是完全合理的，因为它也被称为Brier 分数，并且是一个适当的评分规则，这意味着如果网络输出类成员的条件概率，它就会被最小化。这并不奇怪，因为最小化 MSE 会导致模型输出目标分布的条件均值的估计值，对于 1-of-c 编码，该模型是类成员资格的条件概率。您甚至可以使用 MSE 来训练输出层中具有逻辑或 softmax 激活函数的网络，以便遵守通常的区间约束 $[0,1]$ 并求和为一。

然而，与交叉熵度量相比，MSE 对非常自信的错误分类的惩罚要轻得多。这是好事还是坏事取决于应用程序的需求。如果您最感兴趣的是 p=0.5 决策边界，那么您可能不希望模型资源用于处理高度置信度的错误分类，这些错误分类距离决策边界很远，并且对其影响不大。这是支持向量机等纯判别方法的很大一部分理由。

其它你可能感兴趣的问题

上一篇哪些电影拥有最真实的人工智能？下一篇未经训练的 CNN 作为特征提取器？