我正在使用具有 128 个隐藏单元的单层 LSTM 对 15000 条推文进行情绪预测建模,并使用 80 维的类似 word2vec 的表示。在 1 个 epoch 后,我得到了下降准确度(38% 随机 = 20%)。随着训练准确度开始攀升,更多的训练使验证准确度开始下降——这是过度拟合的明显迹象。
因此,我正在考虑进行正则化的方法。我不想减少隐藏单元的数量(128 似乎已经有点低了)。我目前使用 dropout 的概率为 50%,但这可能会增加。优化器是 Adam,具有 Keras 的默认参数(http://keras.io/optimizers/#adam)。
有哪些有效方法可以减少此模型在我的数据集上的过度拟合?