后见之明的经验回放:抽样目标的策略

数据挖掘 强化学习
2022-01-28 21:57:17

Hindsight Experience Replay的作者列出了对一组额外目标进行抽样的几种策略G在第 4.5 节中:

  • final - 对应于环境的最终状态,
  • 未来- 重放 k 个随机状态,这些状态来自与正在重放的过渡相同的情节,并在其后被观察到,
  • episode — 重放来自与正在重放的转换相同的情节的 k 个随机状态,
  • random — 重放到目前为止在整个训练过程中遇到的 k 个随机状态。

我对未来方法的解释是,如果当前正在回放的过渡已经在剧集中发生,我们只能选择 k 个随机状态,所以这至少是我们第二次看到当前过渡。如果在具有大状态空间(尤其是具有连续特征)的环境中工作,这似乎不太可能。在解释如何实施这一策略时,我是否遗漏了一些明显的东西?

1个回答

我在那里已经有一段时间了,直到我在 OpenAI Baselines 库中阅读了 thr 算法的实现,你可以在 Github 上找到它。基本上,根据我从算法中了解到的情况,K 因子主要调整采样数据的百分比(在 Q 权重中为更新步骤重放),如果我们在没有 HER 的情况下采样 1 个转换,我们会用 HER 采样另一个 K。如果我们对一批数据进行采样并使用 HER 重放 K/1+k,只需通过未来任何时间观察到的其他状态更改它们的目标,就可以按照规定的方式实现这一点