带有 RNN 的策略梯度/REINFORCE 算法:为什么这会与 SGM 而不是 Adam?

数据挖掘 深度学习 nlp rnn 强化学习 政策梯度
2022-03-05 00:14:11

我正在使用 REINFORCE 算法训练 RNN 模型生成字幕。我采用自我批评策略(参见论文自我批评序列训练图像字幕)来减少方差。我使用预训练的 RNN 模型(又名热启动)初始化模型。这个预训练模型(用对数似然目标训练)在我的任务中获得了 0.6 F1 分数。

当我使用 adam 优化器来训练这个策略梯度目标时,我的模型的性能在几个 epoch 后下降到 0。但是,如果我切换到梯度下降优化器并保持其他所有内容相同,则性能看起来合理并且比预训练模型略好。有什么想法吗?

我使用 tensorflow 来实现我的模型。

1个回答

没有代码,我们无能为力,但我猜你需要显着降低学习率。根据我的经验,与 SGD 相比,Adam 需要的学习率要低得多。