在 LSTM 的哪几层 Dropout?

数据挖掘 神经网络 lstm rnn 辍学 堆叠的lstm
2021-09-16 02:06:47

使用带有 dropout 的多层LSTM,是否建议将 dropout 放在所有隐藏层以及输出密集层上?在 Hinton 的论文(提出 Dropout)中,他只将 Dropout 放在 Dense 层上,但那是因为隐藏的内层是卷积的。

显然,我可以测试我的具体模型,但我想知道是否对此有共识?

2个回答

LSTM出于一个具体而明确的原因,我不想在单元格中添加辍学。LSTMs从长远来看是有好处的,但关于它们的重要一点是,它们不太擅长同时记住多个事物。dropout 的逻辑是为神经元添加噪声,以便不依赖于任何特定的神经元。通过为细胞添加辍学LSTM,有机会忘记不应该忘记的东西。因此,就像CNNs我总是喜欢在图层之后的密集图层中使用 drop out一样LSTM

没有可以在所有模型类型中证明的共识。

dropout视为一种正则化形式,应用多少(以及在哪里),本质上取决于数据集的类型和大小,以及构建模型的复杂性(它有多大)。