我们应该如何解释强化学习中的所有不同指标?

人工智能 强化学习 训练 政策梯度 公制
2021-11-05 21:56:50

我正在尝试使用 AC 和 PPO 等策略梯度方法训练一些深度 RL 代理。在训练时,我有很多不同的指标被监控。

我知道最终目标是最大化每集的奖励或回报。但是还有很多其他指标我不明白它们的用途。

特别是,在训练过程中,应该如何解释策略损失、价值、价值损失、熵和奖励/回报的均值和标准差曲线?

当这些值随时间增加或减少时,这意味着什么?鉴于这些曲线,人们将如何决定如何调整超参数、查看训练在哪里成功和失败等等?

1个回答

正如你所说,通常最重要的是每集的奖励。如果这总体上没有增加,那就有问题了(当然这个指标可能会波动,我的意思是说宏观上它应该增加)。

政策损失(我假设您的意思是“演员损失”?)通常更难解释。您应该将其更多地视为梯度的来源,而不一定是代理执行情况的良好指标。

我不太确定您为什么要在培训期间监控价值。然而,价值损失基本上相当于 Q-learning 等基于价值的方法中的价值损失。所以这个应该整体下降。否则,您为减少策略梯度变化而计算的基线要么效果不佳,要么甚至有害。

熵是一个很好的测量量,因为它可以很好地指示您的代理正在探索多少。如果您发现您的代理没有获得高回报并且熵非常低,这意味着您的策略已经收敛到次优。如果熵真的很高,这意味着代理的行为相当随机(所以它基本上是在探索很多)。理想情况下,熵应该随着时间的推移而减少,因此您的策略在达到最佳状态时变得更具确定性(更少探索)。