我无法理解这个简单的概念。
假设我们有一个线性回归,并且有一个参数 theta 需要优化(为简单起见):
误差成本函数可以定义为, 对于每个.
然后,theta 将更新为:
, 对于每个.
据我了解,alpha 项后的乘数是误差成本函数的导数. 这个术语告诉我们前进的方向,以达到最低限度,一次迈出一小步。我正确理解“爬山”的概念,至少我认为。
这是我似乎没有绕开的地方:
如果已知误差函数的形式(就像在我们的例子中:如果我们取足够多的 theta 值并将它们插入模型中,我们可以直观地绘制函数),为什么我们不能取一阶导数并将其设置为零(如果函数具有多个 theta,则为偏导数)。这样,我们将拥有函数的所有最小值。然后使用二阶导数,我们可以确定它是最小值还是最大值。
我已经在微积分中看到过这样的简单函数(可能是几年前,也许我错了),那么是什么阻止我们在这里做同样的事情呢?
抱歉问了这么愚蠢的问题。
谢谢你。