在Andrew Ng 的机器学习课程的第 5 周,他给出了梯度检查的公式:
一方面的区别:
两面的区别:
在哪里是一个小值(如果太小,可能会出现数值问题。)
Ng 教授断言,双边差异可以更好地逼近真实梯度。
为什么会这样?
在Andrew Ng 的机器学习课程的第 5 周,他给出了梯度检查的公式:
一方面的区别:
两面的区别:
在哪里是一个小值(如果太小,可能会出现数值问题。)
Ng 教授断言,双边差异可以更好地逼近真实梯度。
为什么会这样?
看待这一点的一种方法是通过泰勒近似。记住
一侧看起来像这样
两侧看起来像这样
换句话说,两侧发挥对称性,并抵消了平方项在泰勒展开中的贡献。因此,当您挤压时,两侧的误差比一侧的减小得快得多。
对于理论分析,您需要阅读有关数值分析的书。但直觉上,用关于切点对称的两点之间的割线来近似切线似乎是合理的。让我们看一个简单的数值示例,让并且我们对处的导数感兴趣,因此我们知道真实值为零。然后对称的两侧差给出 对于所有。通过不对称差异,您可以自己看到该值将是或。就像一个插图。