我们不会用零初始化权重矩阵,因为对称性在反向传递期间并随后在参数更新过程中没有被破坏。
但是用零设置偏置向量是安全的,并且它们会相应地更新。
为什么这样做是安全的,而不是相反?
为什么我们不能用随机数初始化偏置向量,用零初始化权重矩阵?
我最初的想法是向量的秩为 (n, 1),其中. 这不适用于矩阵。因此,在向量的情况下,对称性并没有真正发挥作用。
但这并不能回答深度神经网络的每一层都有自己的权重矩阵,并且不需要跨层对称的问题。
那么,当我们谈论对称性时,我们是在谈论同一矩阵的不同行之间的对称性吗?
列对称性应该无关紧要,因为它们对于不同的训练示例(对于第一个隐藏层)。在除第一个之外的隐藏层的情况下,列对称性是否会严重干扰训练过程?