在多类分类中使用回归损失函数的缺点

机器算法验证 回归 神经网络 损失函数 交叉熵
2022-03-25 21:16:22

给定类,考虑以下损失函数 这里是第one-hot 编码的真实标签,是预测(在对输出 logits 应用 sigmoid 后获得一些神经网络)。 使用这种损失而不是像交叉熵损失这样的损失有什么理论和实际的缺点?k>2

i||y(i)y^(i)||2
y(i){0,1}kithy^(i)[0,1]k

2个回答

用于分类问题的平方误差称为Brier 分数,与 log-loss 一样,它是一个严格正确的评分规则,即它导致产生良好校准的概率使用平方误差作为分类的损失函数是完全可以的。

Hui 和 Belkin (2020)研究了这个问题,他们得出结论:

我们认为,几乎没有令人信服的经验或理论证据表明交叉熵损失具有明显的优势。事实上,在我们的实验中,几乎所有非视觉任务的性能都可以通过切换到平方损失来提高,有时甚至可以显着提高。此外,平方损失的训练似乎对初始化的随机性不太敏感。我们认为,使用平方损失进行分类的训练需要成为现代深度学习最佳实践的一部分,并与交叉熵平起平坐。

您可能会在论文的第 5 节中注意到作者发现可以改进培训的一些技术考虑因素。

还要检查为什么不使用逻辑回归的平方误差总和,而是使用最大似然估计来拟合模型?当我在逻辑回归设置中使用平方损失时,这里发生了什么?线程。

交叉熵损失为您提供最大似然估计 (MLE),即如果您找到交叉熵损失的最小值,则您已找到模型(从您考虑的模型系列中)为您的训练数据提供最大概率;您的家庭中没有其他模型可以为您的训练数据提供更多可能性。(例如,模型族可能是对某些选定的神经网络设计的所有可能权重分配的集合。)

成为 MLE 有助于对结果属性进行数学推理,因为 MLE 有很多理论。

此外,交叉熵的计算速度比您提到的平方误差 (SSE) 损失的总和要快一些。

有人争辩说,SSE 损失较差,因为损失不仅取决于模型下正确标签的概率,还取决于模型赋予错误模型的概率分布(因为它不是线性的)。

但是,就深度神经网络而言,最常(并非总是)使用交叉熵的真正原因是经验表明它通常会带来更好的结果。我们只是还没有找到真正更好的东西(这也是实用的)。