数据挖掘 - 调试强化型算法的指南？ - 吾爱随笔录 - 问答

调试强化型算法的指南？

数据挖掘强化学习火炬 nlp 政策梯度

2022-02-28 22:12:52

我实现了一个自我批评策略梯度（如此处所述），用于文本摘要。

然而，经过训练，结果并没有预期的那么高（实际上比没有 RL 时要低……）。

我正在寻找有关如何调试基于 RL 的算法的一般指南。

我试过：

在小数据集（~6 个样本）上过拟合：我可以增加平均奖励，但它不会收敛。有时平均奖励会再次下降。
改变学习率：我改变了学习率，看看它对小数据集的影响。从我的实验中，我选择了相当大的学习率（0.02与1e-4论文相比）
看看随着训练（在完整数据集上）的平均奖励如何演变：平均奖励明显没有变化......

1个回答

到目前为止我能找到的唯一资源：

https://github.com/williamFalcon/DeepRLHacks

对于我的具体情况，我犯了一些错误：

冻结不应该冻结的网络部分
错误的学习率

即使我可以过拟合一个小数据集，也没有任何意义：在整个数据集上进行训练时，平均奖励并没有增加。

你应该寻找奖励上升。

我不接受这个答案，因为我认为它不完整：它缺乏调试强化学习算法的通用和系统指南。

其它你可能感兴趣的问题

上一篇对象检测在图像分类方面是否比图像分类做得更好下一篇将 word2vec 用于时间序列分析等非字符串输入是否有意义？