数据挖掘 - 带有 RNN 的策略梯度/REINFORCE 算法：为什么这会与 SGM 而不是 Adam？ - 吾爱随笔录

我正在使用 REINFORCE 算法训练 RNN 模型生成字幕。我采用自我批评策略（参见论文自我批评序列训练图像字幕）来减少方差。我使用预训练的 RNN 模型（又名热启动）初始化模型。这个预训练模型（用对数似然目标训练）在我的任务中获得了 0.6 F1 分数。

当我使用 adam 优化器来训练这个策略梯度目标时，我的模型的性能在几个 epoch 后下降到 0。但是，如果我切换到梯度下降优化器并保持其他所有内容相同，则性能看起来合理并且比预训练模型略好。有什么想法吗？

我使用 tensorflow 来实现我的模型。