Hindsight Experience Replay 如何从不成功的轨迹中学习?

人工智能 强化学习 深度学习 事后经验重播
2021-11-16 23:02:51

我对她如何从不成功的轨迹中学习感到困惑。我知道,它从失败的轨迹中创造了可以从中学习的“虚假”目标。

暂时忽略 HER,如果在机械臂正确到达目标的情况下,则价值函数 (V) 和动作价值函数 (Q) 对应于更快到达目标的轨迹将会增加。这些高QV值对于获得最优策略最终很重要。

但是,如果您从不成功的轨迹中创建“虚假”​​目标 - 这将增加QV导致获得“虚假”目标的环境。那些新QVs 对机械臂实现真正的目标没有帮助,甚至可能有害。

我有什么误解?

1个回答

暂时不理她QV函数对状态和动作进行操作,这些状态和动作是我们称之为马尔可夫决策过程的一部分M0.

回到她,QV函数现在将目标作为称为目标的附加参数。我们将表示个人目标gn, 真正的目标g0,以及所有目标的集合G. 选择一组目标,使得每个状态至少匹配一个目标。我们创建一个新的 MDPM1=M0×G(即由多个副本组成的更大的 MDPM0,每个状态中的所有状态都被标记为一个目标)。奖励是 +1 或 0,具体取决于目标和组件是否来自M0在某种预定义的意义上匹配。在 HER 中,轨迹是从M1在哪里g=g0并添加到重播缓冲区。训练时QV我们不仅使用原始轨迹的函数:我们通过替换的新值来创建新的轨迹g,我们战略性地这样做是为了包括一些具有积极回报的轨迹。

注意事项:

  1. HER 不会给状态或轨迹分配奖励M0:使用的奖励函数仅定义为M1
  2. HER的性能取决于QV两者都是具有推断未见数据点能力的模型;例如神经网络、支持向量机等。如果应用于值表,它不会提供任何好处。