假设我想在 keras 中实现 Conv2D,对于每个 Conv2D 层,如果我在深度为 10 的输入上应用 20 个 [2,3] 过滤器,那么将有 20*(2*3*10+1) = 1220 个可训练的重量。
L1 范数的值将成比例地增加更多的可训练权重。对于 L2 范数也是如此。
那么 lambda 不应该像 kernel_regularizer=l1(lambda) 那样与可训练权重的数量成反比吗?
对我来说,直观地说,如果 0.1 的 lambda 对 10,000 个权重有效,那么对 100 万个权重应用相同或更大的 lambda 对我来说没有意义。