在实现神经网络(或其他学习算法)时,我们通常希望通过 L2 正则化我们通常通过向成本函数添加正则化项来做到这一点,如下所示:
然后我们继续最小化这个成本函数,希望当我们达到最小值时,我们得到的模型比没有正则化的模型具有更少的过度拟合。据我所知,这是 L2 正则化方法(也是在深度学习库中实现的一种)。让我知道我是否犯了任何错误。
我的问题是:由于正则化因子与模型中的参数总数无关,在我看来,参数越多,第二项自然就越大。例如,如果一个模型有 3 亿个参数,并且我设置了,那么第二项可能会很大。那么,以某种方式减少以解释模型中的大量参数是标准做法,还是可以简单地接受以巨大成本开始?在我看来,如果我们不以某种方式与参数的数量成反比,那么使用大量参数,同时保持常数,意味着我们将有更强的正则化效果,因为第二项将强制参数更加严格。第二个任期将超过第一个任期。不过,我在遇到的任何资源中都没有提到这样做,所以我想知道我的分析是否在某个地方根本上是错误的。