我提到的多个资源都提到 MSE 很棒,因为它是凸的。但我不明白怎么做,尤其是在神经网络的背景下。
假设我们有以下内容:
- : 训练数据集
- : 目标
- :模型的参数集(具有非线性的神经网络模型)
然后:
为什么这个损失函数总是凸的?这是否取决于?
我提到的多个资源都提到 MSE 很棒,因为它是凸的。但我不明白怎么做,尤其是在神经网络的背景下。
假设我们有以下内容:
然后:
为什么这个损失函数总是凸的?这是否取决于?
简而言之:MSE 在其输入和参数上是凸的。但在任意神经网络上,由于存在激活函数形式的非线性,它并不总是凸的。我的答案来源在这里。
凸性
一个函数和是凸的,如果,对于任何,并且对于任何,
可以证明,这样的凸有一个全局最小值。唯一的全局最小值消除了由局部最小值创建的陷阱,这些陷阱可能发生在试图实现全局最小值收敛的算法中,例如误差函数的最小化。
尽管误差函数在所有连续的线性上下文和许多非线性上下文中可能是 100% 可靠的,但这并不意味着所有可能的非线性上下文的全局最小值收敛。
均方误差
给定一个函数描述理想的系统行为和系统模型(在哪里是参数向量、矩阵、立方体或超立方体,并且),通过合理或通过收敛(如在神经网络训练中)创建,均方误差 (MSE) 函数可以表示如下。
您正在阅读的材料可能并未声称或者是凸的, 但那是凸的和不管他们是什么。这个后面的陈述可以证明任何连续的和.
混淆收敛算法
如果问题是一个特定的和实现的方法这近似于在一个合理的 MSE 收敛余量内可以混淆,答案是“是”。这就是为什么 MSE 不是唯一的错误模型。
概括
总结的最好方法是应该基于以下知识从一组股票凸误差模型中定义或选择。
库存凸误差模型集当然包括 MSE 模型,因为它简单且计算量少。