如果我们假设这是梯度下降法的公式:
由于没有精确的值我们减去而不是导数,这是否意味着我们减去导数的值并将其仅用于控制x的下一个位置的方向?为什么我们减去导数而不是任何其他取决于x的值?
如果我们假设这是梯度下降法的公式:
由于没有精确的值我们减去而不是导数,这是否意味着我们减去导数的值并将其仅用于控制x的下一个位置的方向?为什么我们减去导数而不是任何其他取决于x的值?
假设我想在的最小值。然后我有3个选择:
所以:
到目前为止,导数似乎是用来更新我最初的猜测的好选择。如果还考虑幅度,我们有:
所以也可以使用微分大小。
到目前为止,我们已经观察并推断出:或者:是一个很好的方案更新我的猜测。
(学习率)是满足两件事的必要参数:
参考: