为什么 L2 损失在神经网络中比其他损失函数更常用?

人工智能 神经网络 深度学习 目标函数 正则化 损失
2021-10-24 02:48:13

为什么 L2 损失在神经网络中比其他损失函数更常用?L2 成为神经网络中默认选择的原因是什么?

1个回答

我将介绍 L2 正则化损失以及均方误差 (MSE):

微博:

  1. 与 L1 损失不同,L2 损失在任何领域都是连续可微的。这使得训练更加稳定,并允许基于梯度的优化,而不是组合优化。
  2. 使用 L2 损失(没有任何正则化)对应于普通最小二乘估计器,如果你能够调用 Gauss-Markov 假设,它可以为你的估计器/模型带来一些有益的理论保证(例如,它是“最佳线性无偏估计器”)。资料来源:https ://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem 。

L2 正则化:

  1. 使用 L2 正则化等效于在模型/估计器上调用高斯先验(请参阅https://stats.stackexchange.com/questions/163388/why-is-the-l2-regularization-equivalent-to-gaussian-prior )。如果将您的问题建模为最大后验推理 (MAP) 问题,如果您的似然模型 (p(y|x)) 是高斯的,那么您在参数 (p(x|y)) 上的后验分布也将是高斯的。来自维基百科:“如果似然函数是高斯函数,则在均值上选择高斯先验将确保后验分布也是高斯分布”(来源:https ://en.wikipedia.org/wiki/Conjugate_prior )。

  2. 与上述情况一样,L2 损失在任何域中都是连续可微的,这与 L1 损失不同。