在神经网络的情况下,均方误差总是凸的吗?

人工智能 神经网络 数学 反向传播 梯度下降
2021-10-29 21:13:50

我提到的多个资源都提到 MSE 很棒,因为它是凸的。但我不明白怎么做,尤其是在神经网络的背景下。

假设我们有以下内容:

  • X: 训练数据集
  • Y: 目标
  • Θ:模型的参数集fΘ(具有非线性的神经网络模型)

然后:

MSE(Θ)=(fΘ(X)Y)2

为什么这个损失函数总是凸的?这是否取决于fΘ(X)?

2个回答

简而言之:MSE 在其输入和参数上是凸的。但在任意神经网络上,由于存在激活函数形式的非线性,它并不总是凸的。我的答案来源在这里

凸性

一个函数f(x)xΧ是凸的,如果,对于任何x1Χ,x2Χ并且对于任何0λ1,

f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2).

可以证明,这样的凸f(x)有一个全局最小值。唯一的全局最小值消除了由局部最小值创建的陷阱,这些陷阱可能发生在试图实现全局最小值收敛的算法中,例如误差函数的最小化。

尽管误差函数在所有连续的线性上下文和许多非线性上下文中可能是 100% 可靠的,但这并不意味着所有可能的非线性上下文的全局最小值收敛。

均方误差

给定一个函数s(x)描述理想的系统行为和系统模型a(x,p)(在哪里p是参数向量、矩阵、立方体或超立方体,并且1nN),通过合理或通过收敛(如在神经网络训练中)创建,均方误差 (MSE) 函数可以表示如下。

e(β):=N1n[a(xn)s(xn)]2

您正在阅读的材料可能并未声称a(x,p)或者s(x)是凸的x, 但那e(β)是凸的a(x,p)s(x)不管他们是什么。这个后面的陈述可以证明任何连续的a(x,p)s(x).

混淆收敛算法

如果问题是一个特定的a(x,p)和实现的方法s(x)这近似于a(x,p)在一个合理的 MSE 收敛余量内可以混淆,答案是“是”。这就是为什么 MSE 不是唯一的错误模型。

概括

总结的最好方法是e(β)应该基于以下知识从一组股票凸误差模型中定义或选择。

  • 系统的已知属性s(x)
  • 近似模型的定义a(x,p)
  • 用于生成收敛序列中下一个状态的张量

库存凸误差模型集当然包括 MSE 模型,因为它简单且计算量少。