人工智能 - 反向传播如何在组件具有不同数量级的自定义损失函数上工作？ - 吾爱随笔录

我想使用自定义损失函数，它是 l1 和 DSSIM 损失的加权组合。DSSIM 损失限制在 0 到 0.5 之间，因为 l1 损失可以大几个数量级，在我的情况下也是如此。在这种情况下，反向传播如何工作？对于权重的微小变化，l1 分量的变化显然总是远大于 SSIM 分量。因此，似乎只有 l1 部分会影响学习，而 SSIM 部分几乎没有任何作用。这个对吗？或者我在这里遗漏了一些东西。我想我是，因为在 Keras-contrib 的 DSSIM 实现中，提到我们应该在 DSSIM 之外添加一个像 l2 loss 这样的正则化项（https://github.com/keras-team/keras-contrib/ blob/master/keras_contrib/losses/dssim.py); 但我无法理解它是如何工作的，以及 SSIM 将如何影响反向传播，这完全被其他组件的大量所掩盖。如果有人可以解释这一点，那将是一个很大的帮助。谢谢。