有没有办法减少Rprop(以及iRprop+)的噪音和随机性?
具体来说,在深度网络(超过 8 层)中,随着最早的层被调整,这种效果开始变得明显。这对结果有很大的影响,并且错误会四处跳动。
噪声也发生在只有 2-3 层的网络中。但是,只有当误差达到 0.00 时才会明显,并且 iRprop+ 会继续运行。在某些情况下会突然引起非常突然的变化,交叉熵代价函数会产生大于 1 000 000 的误差
我在 C++ 中构建了一个自定义 LSTM,并在调试过度拟合期间遇到了这种噪音
也许每一层的学习率应该根据层的深度以不同的幅度初始化?[关联]