数据挖掘 - 损失函数方程中的局部最小值是如何出现的？ - 吾爱随笔录

数据挖掘梯度下降

2022-02-10 14:49:33

在梯度下降中，我知道当函数的导数为零时会出现局部最小值，但是当使用损失函数时，只有当输出和预测输出相同时，导数才等于零（根据下面的等式）。

因此，当预测输出等于输出时，这意味着达到了全局最小值！所以，我的问题是：如果零梯度只出现在“完美”拟合的情况下，怎么会出现局部最小值？

θ_{j} := θ_{j} - \frac{α}{m} \sum_{i = 1}^{M} ({\hat{y}}^{i} - y^{i}) x_{j}^{i}

$\theta_j := \theta_j - {\alpha \over m} \sum_{i=1}^M (\hat y^i-y^i)x_j^i$

2个回答

您用于梯度下降的方程并不通用；它特定于线性回归。
在线性回归中，确实只有一个全局最小值，没有局部最小值；但对于更复杂的模型，损失函数更复杂，局部最小值是可能的。

“没有完美契合就没有最小值”的前提是不正确的。

让我们看一个平方损失的简单示例。

L (\hat{y}, y) = \sum_{i} (y_{i} - {\hat{y}}_{i})^{2}

$L(\hat{y}, y) = \sum_i (y_i-\hat{y}_i)^2$

(x_{1}, y_{1}) = (0, 1)

$(x_1, y_1) = (0,1)$

(x_{2}, y_{2}) = (1, 2)

$(x_2, y_2) = (1,2)$

(x_{3}, y_{3}) = (3, 3)

$(x_3, y_3) = (3,3)$

我们决定用一条线对此进行建模： $\hat{y}_i = \beta_0 + \beta_1 x_i$ .

让我们根据损失函数优化参数。

L (\hat{y}, y) = (1 - (β_{0} + β_{1} (0)))^{2} + (2 - (β_{0} + β_{1} (1)))^{2} + (3 - (β_{0} + β_{1} (3)))^{2}

$L(\hat{y}, y) = (1-(\beta_0 + \beta_1(0)))^2 + (2-(\beta_0 + \beta_1(1)))^2 + (3-(\beta_0 + \beta_1(3)))^2$

现在我们取的偏导数 $L$ 关于 $\beta_0$ 和 $\beta_1$ 并进行通常的最小化计算。

所以我们最小化了损失函数，但我们肯定没有与一条线完美拟合。

其它你可能感兴趣的问题