PPO 的实施 - 价值损失未收敛,回报趋于稳定

人工智能 强化学习 近端策略优化 优势-演员-评论家
2021-11-18 01:31:02

从我的 reddit 帖子中复制:(抱歉,如果这里不适合,请告诉我,我将其删除)关于我正在实施 PPO 的帮助,我计划在我的(学士)论文中使用它。为了测试我的实现是否有效,我想使用 LunarLanderContinuous-v2 环境。现在我的实现似乎工作得很好,但是太早了 - 每个时间步的平均奖励约为 -1.8 奖励,目标应该是每个时间步大约 +2.5 奖励。正如实施通常所了解的那样,我有点困惑,至于为什么它那么早地折叠起来。关于我的实现的一些细节,这里也是 github repo:

  • 我通过 openai 的 subproc_vecenv 使用并行环境
  • 我使用 PPO 的 Actor Critic 版本
  • 我使用广义优势估计作为我的优势术语
  • 我只使用完成的跑步(训练中使用的每次跑步都达到了最终状态)
  • 尽管下图中的批评损失看起来很小,但实际上相当大,因为奖励是标准化的,因此价值目标实际上相当小

  • Critic 似乎预测了一个独立于它所馈送的状态的值 - 也就是说,它为每个状态预测只是所有值的平均值。这似乎是严重的欠拟合,这很奇怪,因为在我看来,网络对于这个问题来说已经相当大了。但这似乎是我认为问题的最可能原因。培训进度 编辑1:添加图像

0个回答
没有发现任何回复~