我想用“合成梯度”解耦神经接口(DNI)训练我的 LSTM。
如何决定我的 DNI 的层数和神经元数?通过试验结束错误或更糟的方式搜索它们 - 通过遗传算法似乎超过 [原文如此] 打败了合成梯度的目的。
而且,如果我的 DNI 本身就是 LSTM - 似乎需要更长的时间才能确定其最佳结构
SG 通过允许多次前向传递(立即调整权重)来加快训练速度,因为 DNI 已经可以预测未来的梯度。
然而,我们将浪费时间“体验”数百个训练课程,只是为了找到 DNI 的最佳结构,用它来预测梯度的最佳方式。
到那时,我们可能已经通过 Time 完成了使用老式 Backprop 的训练。
另外,我们应该如何避免我们的 DNI 过拟合,如何监控并确保它不会发生?