从高斯分布而不是从柯西分布中提取多层感知器的初始权重是否有理论或经验原因?
从高斯分布中提取初始神经网络权重的原因是什么?
数据挖掘
机器学习
神经网络
深度学习
高斯
权重初始化
2021-10-15 21:52:30
2个回答
初始权重分布的目标是获得一定量的方差以允许学习发生。许多发行版都可以工作。高斯或均匀是最常用的。
出于几个原因,柯西分布不是一个有用的选择。主要原因是柯西分布不像高斯分布或均匀分布那样普遍,因此在编程环境中没有得到很好的支持。另一个原因可能是柯西分布的方差未定义。
有不同的原因。首先,有一个普遍规律。尝试将权重初始化为接近零,但避免将它们设置为太小的值。如果您以这种方式标准化您的输入并初始化您的权重,您的成本函数将以某种方式成为一个舍入的成本函数并且它会被拉长。
一种方法是从制服中采样,另一种方法是从高斯中采样。均匀选择具有相同概率的范围内的值,而高斯选择接近均值零的值,概率更大。因此,高斯更好。
通常高斯的缺点之一是可以选择较大的值。在大型网络中,有很多参数。因此,我们可能会选择许多具有较大值的权重。大重量值不好。它们会导致过度拟合,并会减慢训练过程。因此,如果出现较大的值,人们会尝试重新采样。为此,他们指定了数字的阈值。这种方法称为截断法,可应用于高斯分布。
其它你可能感兴趣的问题