数据挖掘 - 为什么这篇论文说 0-1 损失对神经网络中权重的缩放不敏感？ - 吾爱随笔录

在讨论使用神经网络中的权重范数进行容量控制时，本文说如下（参见 P4）：

就范数而言的容量控制，当使用零/一损失（即计数错误）时，我们还需要考虑神经网络输出的缩放，因为损失对这种缩放不敏感，但范数仅在以下情况下才有意义这种缩放的背景。例如，将所有权重除以相同的数字将缩小网络的输出，但不会改变 $0 / 1$ 损失，因此有可能得到一个具有任意小范数的网络并且相同 $0 / 1$ 损失。使用尺度敏感的损失，例如交叉熵损失，确实解决了这个问题（如果输出缩小到零，损失变得微不足道），并且可以在范数和交叉熵损失方面获得泛化保证。

我对这一段有点困惑，因为看起来 0-1 损失对体重缩放并不是不敏感的。例如，如果我们按比例缩小权重，输出也会按比例缩小，所以 0-1 损失肯定会改变（因为真正的标签没有改变）。谁能解释一下我的哪一部分理解出错了? 另外，我想知道交叉熵损失如何解决这个问题。