在观看 Andrew Ng 在 Coursera 上的机器学习课程时,在逻辑回归周,成本函数比线性回归的成本函数要复杂一些,但绝对不是那么难。
但这让我开始思考,为什么不对逻辑回归使用相同的成本函数呢?
因此,成本函数将是, 在哪里是我们的假设,是训练样本的数量和和是我们的训练例子?
在观看 Andrew Ng 在 Coursera 上的机器学习课程时,在逻辑回归周,成本函数比线性回归的成本函数要复杂一些,但绝对不是那么难。
但这让我开始思考,为什么不对逻辑回归使用相同的成本函数呢?
因此,成本函数将是, 在哪里是我们的假设,是训练样本的数量和和是我们的训练例子?
均方误差 (MSE),, 不像分类的成本函数那样合适,因为 MSE 对不适合分类的数据做出了假设。虽然,作为优化目标,即使在分类问题中,仍然可以尝试最小化 MSE,因此仍然可以学习参数.
新的成本函数具有更好的收敛特性,因为它更符合目标。
有关从概率角度解释这些损失函数的精确数学公式,请参见链接。
请注意,绝对值是多余的,因为.
我希望这可以澄清问题。
在分类设置中最小化 MSE 是完全合理的,因为它也被称为Brier 分数,并且是一个适当的评分规则,这意味着如果网络输出类成员的条件概率,它就会被最小化。这并不奇怪,因为最小化 MSE 会导致模型输出目标分布的条件均值的估计值,对于 1-of-c 编码,该模型是类成员资格的条件概率。您甚至可以使用 MSE 来训练输出层中具有逻辑或 softmax 激活函数的网络,以便遵守通常的区间约束并求和为一。
然而,与交叉熵度量相比,MSE 对非常自信的错误分类的惩罚要轻得多。这是好事还是坏事取决于应用程序的需求。如果您最感兴趣的是 p=0.5 决策边界,那么您可能不希望模型资源用于处理高度置信度的错误分类,这些错误分类距离决策边界很远,并且对其影响不大。这是支持向量机等纯判别方法的很大一部分理由。