我已经阅读了这篇文章,但我想对更广泛的问题进行更多说明。
在 Keras 中,层现在有三种类型的正则化器:kernel_regularizer
、bias_regularizer
、activity_regularizer
。
我已经阅读了解释 L1 和 L2 范数之间区别的帖子,但是从直观的意义上讲,我想知道每个正则化器将如何影响上述三种类型的正则化器以及何时使用什么。
我提出问题的动机是我的理解是正则化器通常应用于损失函数。但是,它们甚至被添加到偏差项中。我无法理解为什么人们会考虑这样做,更不用说能够辨别何时将 L1 和 L2 用于偏置正则化器。因此,我想全面了解应用正则化器的所有三个实体,并且总体上了解这两种正则化器如何在高层次上影响这些实体中的每一个。