合成梯度良好的层数和神经元

数据挖掘 反向传播
2021-09-22 06:01:29

我想用“合成梯度”解耦神经接口(DNI)训练我的 LSTM。

如何决定我的 DNI 的层数和神经元数?通过试验结束错误或更糟的方式搜索它们 - 通过遗传算法似乎超过 [原文如此] 打败了合成梯度的目的。

而且,如果我的 DNI 本身就是 LSTM - 似乎需要更长的时间才能确定其最佳结构

SG 通过允许多次前向传递(立即调整权重)来加快训练速度,因为 DNI 已经可以预测未来的梯度。

然而,我们将浪费时间“体验”数百个训练课程,只是为了找到 DNI 的最佳结构,用它来预测梯度的最佳方式。

到那时,我们可能已经通过 Time 完成了使用老式 Backprop 的训练。

另外,我们应该如何避免我们的 DNI 过拟合,如何监控并确保它不会发生?

1个回答

几个月后,我对此有了一些见解:

另外,我们应该如何避免我们的 DNI 过拟合,如何监控并确保它不会发生?

我认为这并不重要,因为梯度上的 DNI 过度拟合实际上是我们想要的。我们希望它找出以最快方式减少数据错误的模式。但是,与往常一样,我们应该在此过程中注意整个网络的验证。

这可能意味着 DNI 神经元越多越好,只要指定的训练数据保持不变 o_O
如果使用新的或额外的数据进行训练,我们应该丢弃我们的 DNI,重新训练一次,以使它们在这个新的“调整后的”训练数据。

此外,这里有更多关于合成毕业生的信息

希望有更好的答案,所以不会选择这个 - 如果你有更好的答案,请发帖