在讨论使用神经网络中的权重范数进行容量控制时,本文说如下(参见 P4):
就范数而言的容量控制,当使用零/一损失(即计数错误)时,我们还需要考虑神经网络输出的缩放,因为损失对这种缩放不敏感,但范数仅在以下情况下才有意义这种缩放的背景。例如,将所有权重除以相同的数字将缩小网络的输出,但不会改变损失,因此有可能得到一个具有任意小范数的网络并且相同损失。使用尺度敏感的损失,例如交叉熵损失,确实解决了这个问题(如果输出缩小到零,损失变得微不足道),并且可以在范数和交叉熵损失方面获得泛化保证。
我对这一段有点困惑,因为看起来 0-1 损失对体重缩放并不是不敏感的。例如,如果我们按比例缩小权重,输出也会按比例缩小,所以 0-1 损失肯定会改变(因为真正的标签没有改变)。谁能解释一下我的哪一部分理解出错了? 另外,我想知道交叉熵损失如何解决这个问题。