让我根据多元微积分给出一个解释。如果您参加过多元课程,您会听说,给定一个临界点(梯度为零的点),该临界点为最小值的条件是 Hessian 矩阵是正定的。由于 Hessian 矩阵是对称矩阵,我们可以对其进行对角化。如果我们将Hessian对应的对角矩阵写为:
D=⎡⎣⎢⎢d1⋱dn⎤⎦⎥⎥
Hessian 是正定的等价于 d1>0,…,dn>0.
现在让我们考虑一下深度学习成本函数。深度学习成本函数以非常复杂的方式依赖于大量参数,因此 Hessian 本身将具有复杂的表达式。因此,我们可以认为d1,…,dn不偏向负值或正值。因此,给定任何临界点,每个值的概率di 为正可以假定为 1/2. 此外,可以合理地假设di 不要轻易依赖于 dj,由于 Hessian 矩阵的高度非线性,因此我们将它们为正的概率视为独立事件。
因此,给定一个临界点,它成为最小值的概率为:
P(d1>0,…,dn>0)=P(d1>0)⋅⋯⋅P(dn>0)=12n
任何临界点为最小值的概率随着输入空间的维度呈指数下降。在深度学习中,这个空间可以从 1000 到108,并且在这两种情况下 1/2n小得离谱。现在我们确信,考虑到我们遇到的任何临界点,它不太可能是最小值。
但是最大值呢?
函数的最大值是减去函数的最小值。出于这个原因,之前使用的所有参数都可以用来减去成本函数,我们得出结论,每个临界点都有1/2n为最大值。
因此,给定一个临界点,它是鞍点的概率为
P(saddle)=1−P(maximum)−P(minimum)=1−12n−12n=1−12n−1
如果非常接近 1n足够大(通常在深度学习中)。