人工智能 - PPO 的实施 - 价值损失未收敛，回报趋于稳定 - 吾爱随笔录

从我的 reddit 帖子中复制：（抱歉，如果这里不适合，请告诉我，我将其删除）关于我正在实施 PPO 的帮助，我计划在我的（学士）论文中使用它。为了测试我的实现是否有效，我想使用 LunarLanderContinuous-v2 环境。现在我的实现似乎工作得很好，但是太早了 - 每个时间步的平均奖励约为 -1.8 奖励，目标应该是每个时间步大约 +2.5 奖励。正如实施通常所了解的那样，我有点困惑，至于为什么它那么早地折叠起来。关于我的实现的一些细节，这里也是 github repo：

我通过 openai 的 subproc_vecenv 使用并行环境
我使用 PPO 的 Actor Critic 版本
我使用广义优势估计作为我的优势术语
我只使用完成的跑步（训练中使用的每次跑步都达到了最终状态）
尽管下图中的批评损失看起来很小，但实际上相当大，因为奖励是标准化的，因此价值目标实际上相当小
Critic 似乎预测了一个独立于它所馈送的状态的值 - 也就是说，它为每个状态预测只是所有值的平均值。这似乎是严重的欠拟合，这很奇怪，因为在我看来，网络对于这个问题来说已经相当大了。但这似乎是我认为问题的最可能原因。编辑1：添加图像