我对深度学习并没有那么丰富的经验,而且我一直在研究深度神经网络的研究代码(主要是 PyTorch),特别是 GAN,而且在很多情况下,我看到作者bias=False
在没有太多理由的情况下设置了某些层。这通常不会在具有类似目的的一长串层中完成,而是主要在独特的层中完成,例如条件向量之后的初始线性层,或注意力架构中的某些层。
我想必须有一个策略来解决这个问题,但大多数在线文章似乎证实了我最初的看法,即偏见是可以在几乎每一层进行训练的好东西。
是否有特定的优化/理论原因来关闭网络中特定层的偏差?在设计自己的架构时,我该如何选择何时进行?