Delta 规则和错误的混淆

数据挖掘 机器学习 神经网络 训练 梯度下降 感知器
2022-03-14 11:57:41

我目前正在阅读 Mitchell 的机器学习书,他刚刚开始梯度下降。有一个部分真的让我很困惑。

有一次,他给出了感知器在一组训练示例上的误差的等式。

E(w)12dD(tdod)2

Od是实际输出WX, 在哪里X是输入向量和W是权重向量。

td是目标输出,我们想要得到的。

总和D意味着我们总结了每一个 X我们可以输入。

好的,到目前为止一切顺利,我明白了。

然而,他随后给出了这个例子:

在此处输入图像描述

但这不是真的!!!!那个误差方程没有给我们一个最小值!!!

根据他之前的规则,如果我们考虑单个权重向量和单个训练向量的误差,则误差方程为:

E(w)=12(td(w0x0+w1x1))2

它有无数个最小值!!!每次(w0x0+w1x1)=td

我在这里绘制它以向您展示:

在此处输入图像描述

在那张照片中,xy是权重向量的两行w.

请帮忙!在过去的三个小时里,我一直对此感到困惑!

谢谢

1个回答

您是对的,最小二乘解决方案不必像您所说明的那样是唯一的。

一般来说,我们试图解决w在系统中

Xw=t

当然,这甚至不需要一致(意思是有解决方案)。如果它有一个解决方案,那么矩阵的唯一性也不能保证X在的零空间中有非零向量X.

对于最小二乘解,我们试图最小化

12(Xwt)T(Xwt)

其中最小的是达到时

XT(Xwt)=0

那是

XTXw=XTt

并且只有在XTX具有完整的列排名。但是,请注意,梯度下降不需要唯一性。