鉴于困难的学习任务(例如高维、固有的数据复杂性),深度神经网络变得难以训练。为了缓解许多问题,可以:
- 规范化 && 精选质量数据
- 选择不同的训练算法(例如 RMSprop 而不是梯度下降)
- 选择一个更陡峭的梯度成本函数(例如交叉熵而不是 MSE)
- 使用不同的网络结构(例如卷积层而不是前馈)
我听说有一些聪明的方法可以初始化更好的权重。例如,您可以更好地选择震级:Glorot and Bengio (2010)
- 对于 sigmoid 单元:使用Uniform (-r, r)采样
- 或双曲正切单位:使用Uniform (-r, r)采样
有没有更好的初始化权重的一致方法?