使用带有 dropout 的多层LSTM
,是否建议将 dropout 放在所有隐藏层以及输出密集层上?在 Hinton 的论文(提出 Dropout)中,他只将 Dropout 放在 Dense 层上,但那是因为隐藏的内层是卷积的。
显然,我可以测试我的具体模型,但我想知道是否对此有共识?
使用带有 dropout 的多层LSTM
,是否建议将 dropout 放在所有隐藏层以及输出密集层上?在 Hinton 的论文(提出 Dropout)中,他只将 Dropout 放在 Dense 层上,但那是因为隐藏的内层是卷积的。
显然,我可以测试我的具体模型,但我想知道是否对此有共识?
LSTM
出于一个具体而明确的原因,我不想在单元格中添加辍学。LSTMs
从长远来看是有好处的,但关于它们的重要一点是,它们不太擅长同时记住多个事物。dropout 的逻辑是为神经元添加噪声,以便不依赖于任何特定的神经元。通过为细胞添加辍学LSTM
,有机会忘记不应该忘记的东西。因此,就像CNNs
我总是喜欢在图层之后的密集图层中使用 drop out一样LSTM
。
没有可以在所有模型类型中证明的共识。
将dropout视为一种正则化形式,应用多少(以及在哪里),本质上取决于数据集的类型和大小,以及构建模型的复杂性(它有多大)。