人工智能 - 为什么 L2 损失在神经网络中比其他损失函数更常用？ - 吾爱随笔录

人工智能神经网络深度学习目标函数正则化损失

2021-10-24 02:48:13

为什么 L2 损失在神经网络中比其他损失函数更常用？L2 成为神经网络中默认选择的原因是什么？

1个回答

我将介绍 L2 正则化损失以及均方误差 (MSE)：

微博：

与 L1 损失不同，L2 损失在任何领域都是连续可微的。这使得训练更加稳定，并允许基于梯度的优化，而不是组合优化。
使用 L2 损失（没有任何正则化）对应于普通最小二乘估计器，如果你能够调用 Gauss-Markov 假设，它可以为你的估计器/模型带来一些有益的理论保证（例如，它是“最佳线性无偏估计器”）。资料来源：https ://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem 。

L2 正则化：

使用 L2 正则化等效于在模型/估计器上调用高斯先验（请参阅https://stats.stackexchange.com/questions/163388/why-is-the-l2-regularization-equivalent-to-gaussian-prior ）。如果将您的问题建模为最大后验推理 (MAP) 问题，如果您的似然模型 (p(y|x)) 是高斯的，那么您在参数 (p(x|y)) 上的后验分布也将是高斯的。来自维基百科：“如果似然函数是高斯函数，则在均值上选择高斯先验将确保后验分布也是高斯分布”（来源：https ://en.wikipedia.org/wiki/Conjugate_prior ）。
与上述情况一样，L2 损失在任何域中都是连续可微的，这与 L1 损失不同。

其它你可能感兴趣的问题