数据挖掘 - Delta 规则和错误的混淆 - 吾爱随笔录

我目前正在阅读 Mitchell 的机器学习书，他刚刚开始梯度下降。有一个部分真的让我很困惑。

有一次，他给出了感知器在一组训练示例上的误差的等式。

E (\vec{w}) \equiv \frac{1}{2} \sum_{d \in D} (t_{d} - o_{d})^{2}

$E(\vec{w})\equiv \frac12 \sum_{d \in D}(t_d-o_d)^2$

$O_d$ 是实际输出 $\vec{W} \cdot \vec{X}$ ，在哪里 $\vec{X}$ 是输入向量和 $\vec{W}$ 是权重向量。

$t_d$ 是目标输出，我们想要得到的。

总和 $D$ 意味着我们总结了每一个 $\vec{X}$ 我们可以输入。

好的，到目前为止一切顺利，我明白了。

然而，他随后给出了这个例子：

但这不是真的！！！！那个误差方程没有给我们一个最小值！！！

根据他之前的规则，如果我们考虑单个权重向量和单个训练向量的误差，则误差方程为：

E (\vec{w}) = \frac{1}{2} (t_{d} - (w_{0} x_{0} + w_{1} x_{1}))^{2}

$E(\vec{w}) = \frac{1}{2} (t_d - (w_0 x_0 + w_1 x_1))^2$

它有无数个最小值！！！每次 $(w_0 x_0 + w_1 x_1) = t_d$

我在这里绘制它以向您展示：

在那张照片中， $x$ 和 $y$ 是权重向量的两行 $\vec{w}$ .

请帮忙！在过去的三个小时里，我一直对此感到困惑！

谢谢