调试强化型算法的指南?

数据挖掘 强化学习 火炬 nlp 政策梯度
2022-02-28 22:12:52

我实现了一个自我批评策略梯度(如此所述),用于文本摘要。

然而,经过训练,结果并没有预期的那么高(实际上比没有 RL 时要低……)。

我正在寻找有关如何调试基于 RL 的算法的一般指南。


我试过 :

  • 在小数据集(~6 个样本)上过拟合:我可以增加平均奖励,但它不会收敛有时平均奖励会再次下降。
  • 改变学习率:我改变了学习率,看看它对小数据集的影响。从我的实验中,我选择了相当大的学习率(0.021e-4论文相比)
  • 看看随着训练(在完整数据集上)的平均奖励如何演变:平均奖励明显没有变化......
1个回答

到目前为止我能找到的唯一资源:

https://github.com/williamFalcon/DeepRLHacks


对于我的具体情况,我犯了一些错误:

  • 冻结不应该冻结的网络部分
  • 错误的学习率

即使我可以过拟合一个小数据集,也没有任何意义:在整个数据集上进行训练时,平均奖励并没有增加。

你应该寻找奖励上升。


我不接受这个答案,因为我认为它不完整:它缺乏调试强化学习算法的通用和系统指南。