数据挖掘 - Rprop 太吵了 - 吾爱随笔录

有没有办法减少Rprop（以及iRprop+）的噪音和随机性？

具体来说，在深度网络（超过 8 层）中，随着最早的层被调整，这种效果开始变得明显。这对结果有很大的影响，并且错误会四处跳动。

噪声也发生在只有 2-3 层的网络中。但是，只有当误差达到 0.00 时才会明显，并且 iRprop+ 会继续运行。在某些情况下会突然引起非常突然的变化，交叉熵代价函数会产生大于 1 000 000 的误差

我在 C++ 中构建了一个自定义 LSTM，并在调试过度拟合期间遇到了这种噪音

也许每一层的学习率应该根据层的深度以不同的幅度初始化？[关联]