损失函数方程中的局部最小值是如何出现的?

数据挖掘 梯度下降
2022-02-10 14:49:33

在梯度下降中,我知道当函数的导数为零时会出现局部最小值,但是当使用损失函数时,只有当输出和预测输出相同时,导数才等于零(根据下面的等式)。

因此,当预测输出等于输出时,这意味着达到了全局最小值!所以,我的问题是:如果零梯度只出现在“完美”拟合的情况下,怎么会出现局部最小值?

θj:=θjαmi=1M(y^iyi)xji

2个回答

您用于梯度下降的方程并不通用;它特定于线性回归。
在线性回归中,确实只有一个全局最小值,没有局部最小值;但对于更复杂的模型,损失函数更复杂,局部最小值是可能的。

“没有完美契合就没有最小值”的前提是不正确的。

让我们看一个平方损失的简单示例。

L(y^,y)=i(yiy^i)2

(x1,y1)=(0,1)
(x2,y2)=(1,2)
(x3,y3)=(3,3)

我们决定用一条线对此进行建模:y^i=β0+β1xi.

让我们根据损失函数优化参数。

L(y^,y)=(1(β0+β1(0)))2+(2(β0+β1(1)))2+(3(β0+β1(3)))2

现在我们取的偏导数L关于β0β1并进行通常的最小化计算。

所以我们最小化了损失函数,但我们肯定没有与一条线完美拟合。