在cs231n课程中,提到过
如果初始权重太大,那么大多数神经元会变得饱和,网络几乎不会学习。
神经元是如何饱和的?较大的权重可能会导致 az(饱和输出)不接近 0 或 1,因此不会z*(1-z)饱和
z*(1-z)
sigmoid 函数
在哪里
当权重 w一世wi 太大(正或负), zz也往往很大,将 sigmoid 的输出驱动到最左边(值 0)或最右边(值 1)。这些是梯度/导数太小的饱和区域,会减慢学习速度。
当梯度较小时,学习会变慢,因为网络在每次迭代中的权重升级与梯度大小成正比。