sigmoid 如何在大权重下饱和?

数据挖掘 机器学习 神经网络
2021-09-20 06:51:19

在cs231n课程中,提到过

如果初始权重太大,那么大多数神经元会变得饱和,网络几乎不会学习。

神经元是如何饱和的?较大的权重可能会导致 az(饱和输出)不接近 0 或 1,因此不会z*(1-z)饱和

1个回答

sigmoid 函数

θ(z)=11+ez
看起来像这样:

在此处输入图像描述

在哪里

z=wiai+bias
用于激活 ai 来自上一层,权重 wi 当前的神经元。

当权重 wi 太大(正或负), z也往往很大,将 sigmoid 的输出驱动到最左边(值 0)或最右边(值 1)。这些是梯度/导数太小的饱和区域,会减慢学习速度。

当梯度较小时,学习会变慢,因为网络在每次迭代中的权重升级与梯度大小成正比。