为什么 L2 损失在神经网络中比其他损失函数更常用?L2 成为神经网络中默认选择的原因是什么?
为什么 L2 损失在神经网络中比其他损失函数更常用?
人工智能
神经网络
深度学习
目标函数
正则化
损失
2021-10-24 02:48:13
1个回答
我将介绍 L2 正则化损失以及均方误差 (MSE):
微博:
- 与 L1 损失不同,L2 损失在任何领域都是连续可微的。这使得训练更加稳定,并允许基于梯度的优化,而不是组合优化。
- 使用 L2 损失(没有任何正则化)对应于普通最小二乘估计器,如果你能够调用 Gauss-Markov 假设,它可以为你的估计器/模型带来一些有益的理论保证(例如,它是“最佳线性无偏估计器”)。资料来源:https ://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem 。
L2 正则化:
使用 L2 正则化等效于在模型/估计器上调用高斯先验(请参阅https://stats.stackexchange.com/questions/163388/why-is-the-l2-regularization-equivalent-to-gaussian-prior )。如果将您的问题建模为最大后验推理 (MAP) 问题,如果您的似然模型 (p(y|x)) 是高斯的,那么您在参数 (p(x|y)) 上的后验分布也将是高斯的。来自维基百科:“如果似然函数是高斯函数,则在均值上选择高斯先验将确保后验分布也是高斯分布”(来源:https ://en.wikipedia.org/wiki/Conjugate_prior )。
与上述情况一样,L2 损失在任何域中都是连续可微的,这与 L1 损失不同。
其它你可能感兴趣的问题