为什么这篇论文说 0-1 损失对神经网络中权重的缩放不敏感?

数据挖掘 神经网络 深度学习 损失函数 概括
2022-02-25 17:10:30

在讨论使用神经网络中的权重范数进行容量控制时,本文说如下(参见 P4):

就范数而言的容量控制,当使用零/一损失(即计数错误)时,我们还需要考虑神经网络输出的缩放,因为损失对这种缩放不敏感,但范数仅在以下情况下才有意义这种缩放的背景。例如,将所有权重除以相同的数字将缩小网络的输出,但不会改变0/1损失,因此有可能得到一个具有任意小范数的网络并且相同0/1损失。使用尺度敏感的损失,例如交叉熵损失,确实解决了这个问题(如果输出缩小到零,损失变得微不足道),并且可以在范数和交叉熵损失方面获得泛化保证。

我对这一段有点困惑,因为看起来 0-1 损失对体重缩放并不是不敏感的。例如,如果我们按比例缩小权重,输出也会按比例缩小,所以 0-1 损失肯定会改变(因为真正的标签没有改变)。谁能解释一下我的哪一部分理解出错了? 另外,我想知道交叉熵损失如何解决这个问题。

1个回答

零一损失仅对(硬)分类有意义,因此网络的输出需要已经包含离散化。大概作者有一个特定的系统,并且缩放权重不会影响离散化的预测。

我想到了两种可能性(虽然非常密切相关),但我不知道作者是否考虑过其中任何一种。如果模型的最终输出是线性比例,并且决策是基于输出的符号,那么缩放权重不会改变符号,因此不会改变决策。类似地,如果模型的最终输出通过 sigmoid 激活在概率尺度上,则缩放权重不会改变对数赔率的符号,因此将保留输出是高于还是低于 0.5,因此不会改变最终决策(假设截止值为 0.5)。