我实现了一个自我批评策略梯度(如此处所述),用于文本摘要。
然而,经过训练,结果并没有预期的那么高(实际上比没有 RL 时要低……)。
我正在寻找有关如何调试基于 RL 的算法的一般指南。
我试过 :
- 在小数据集(~6 个样本)上过拟合:我可以增加平均奖励,但它不会收敛。有时平均奖励会再次下降。
- 改变学习率:我改变了学习率,看看它对小数据集的影响。从我的实验中,我选择了相当大的学习率(
0.02
与1e-4
论文相比) - 看看随着训练(在完整数据集上)的平均奖励如何演变:平均奖励明显没有变化......