我正在使用 REINFORCE 算法训练 RNN 模型生成字幕。我采用自我批评策略(参见论文自我批评序列训练图像字幕)来减少方差。我使用预训练的 RNN 模型(又名热启动)初始化模型。这个预训练模型(用对数似然目标训练)在我的任务中获得了 0.6 F1 分数。
当我使用 adam 优化器来训练这个策略梯度目标时,我的模型的性能在几个 epoch 后下降到 0。但是,如果我切换到梯度下降优化器并保持其他所有内容相同,则性能看起来合理并且比预训练模型略好。有什么想法吗?
我使用 tensorflow 来实现我的模型。