首先我检查了http://stats.stackexchange.com/questions/23128/solving-for-regression-parameters-in-closed-form-vs-gradient-descent,http://stackoverflow.com/questions/26804656 /why-do-we-use-gradient-descent-in-linear-regression,https://stats.stackexchange.com/questions/212619/why-is-gradient-descent-required但找不到我的答案。
梯度下降是: 其中 w 是一个向量。
Bishop 在他的《模式识别和机器学习》一书中说:
“因为误差函数是系数 w 的二次函数,它对系数的导数在 w 的元素中将是线性的,因此误差函数的最小化具有唯一解……”
所以如果我们对 关于 并且等于零,最后它会给我们最小的 . 这实际上是第一个练习。
在梯度下降中,我们也取导数,所以问题不可能是导数。例如无法找到其导数的方程。如果我们可以通过一次迭代(使每个特征的方程为零)找到答案,为什么我们要一遍又一遍地迭代,这就是梯度下降的情况。