机器算法验证 - L2 正则化常数 - 吾爱随笔录

在实现神经网络（或其他学习算法）时，我们通常希望通过 L2 正则化我们通常通过向成本函数添加正则化项来做到这一点，如下所示： $\theta_i$

cost = \frac{1}{m} \sum_{i = 0}^{m} {loss}_{m} + \frac{λ}{2 m} \sum_{i = 1}^{n} (θ_{i})^{2}

$\text{cost}=\frac{1}{m}\sum_{i=0}^m\text{loss}_m +\frac{\lambda}{2m}\sum_{i=1}^n (\theta_i)^2$

然后我们继续最小化这个成本函数，希望当我们达到最小值时，我们得到的模型比没有正则化的模型具有更少的过度拟合。据我所知，这是 L2 正则化方法（也是在深度学习库中实现的一种）。让我知道我是否犯了任何错误。

我的问题是：由于正则化因子与模型中的参数总数无关，在我看来，参数越多，第二项自然就越大。例如，如果一个模型有 3 亿个参数，并且我设置了，那么第二项可能会很大。那么，以某种方式减少以解释模型中的大量参数是标准做法，还是可以简单地接受以巨大成本开始？在我看来，如果我们不以某种方式与参数的数量成反比，那么使用大量参数，同时保持 $\lambda=1$ $\lambda$ $\lambda$ $\lambda$ 常数，意味着我们将有更强的正则化效果，因为第二项将强制参数更加严格。第二个任期将超过第一个任期。不过，我在遇到的任何资源中都没有提到这样做，所以我想知道我的分析是否在某个地方根本上是错误的。 $\theta_i \approx 0$