我对她如何从不成功的轨迹中学习感到困惑。我知道,它从失败的轨迹中创造了可以从中学习的“虚假”目标。
暂时忽略 HER,如果在机械臂正确到达目标的情况下,则价值函数 () 和动作价值函数 () 对应于更快到达目标的轨迹将会增加。这些高和值对于获得最优策略最终很重要。
但是,如果您从不成功的轨迹中创建“虚假”目标 - 这将增加和导致获得“虚假”目标的环境。那些新和s 对机械臂实现真正的目标没有帮助,甚至可能有害。
我有什么误解?
我对她如何从不成功的轨迹中学习感到困惑。我知道,它从失败的轨迹中创造了可以从中学习的“虚假”目标。
暂时忽略 HER,如果在机械臂正确到达目标的情况下,则价值函数 () 和动作价值函数 () 对应于更快到达目标的轨迹将会增加。这些高和值对于获得最优策略最终很重要。
但是,如果您从不成功的轨迹中创建“虚假”目标 - 这将增加和导致获得“虚假”目标的环境。那些新和s 对机械臂实现真正的目标没有帮助,甚至可能有害。
我有什么误解?
暂时不理她和函数对状态和动作进行操作,这些状态和动作是我们称之为马尔可夫决策过程的一部分.
回到她,和函数现在将目标作为称为目标的附加参数。我们将表示个人目标, 真正的目标,以及所有目标的集合. 选择一组目标,使得每个状态至少匹配一个目标。我们创建一个新的 MDP(即由多个副本组成的更大的 MDP,每个状态中的所有状态都被标记为一个目标)。奖励是 +1 或 0,具体取决于目标和组件是否来自在某种预定义的意义上匹配。在 HER 中,轨迹是从在哪里并添加到重播缓冲区。训练时和我们不仅使用原始轨迹的函数:我们通过替换的新值来创建新的轨迹,我们战略性地这样做是为了包括一些具有积极回报的轨迹。
注意事项: