在梯度下降中,我知道当函数的导数为零时会出现局部最小值,但是当使用损失函数时,只有当输出和预测输出相同时,导数才等于零(根据下面的等式)。
因此,当预测输出等于输出时,这意味着达到了全局最小值!所以,我的问题是:如果零梯度只出现在“完美”拟合的情况下,怎么会出现局部最小值?
在梯度下降中,我知道当函数的导数为零时会出现局部最小值,但是当使用损失函数时,只有当输出和预测输出相同时,导数才等于零(根据下面的等式)。
因此,当预测输出等于输出时,这意味着达到了全局最小值!所以,我的问题是:如果零梯度只出现在“完美”拟合的情况下,怎么会出现局部最小值?
您用于梯度下降的方程并不通用;它特定于线性回归。
在线性回归中,确实只有一个全局最小值,没有局部最小值;但对于更复杂的模型,损失函数更复杂,局部最小值是可能的。
“没有完美契合就没有最小值”的前提是不正确的。
让我们看一个平方损失的简单示例。
我们决定用一条线对此进行建模:.
让我们根据损失函数优化参数。
现在我们取的偏导数关于和并进行通常的最小化计算。
所以我们最小化了损失函数,但我们肯定没有与一条线完美拟合。