Hindsight Experience Replay的作者列出了对一组额外目标进行抽样的几种策略在第 4.5 节中:
- final - 对应于环境的最终状态,
- 未来- 重放 k 个随机状态,这些状态来自与正在重放的过渡相同的情节,并在其后被观察到,
- episode — 重放来自与正在重放的转换相同的情节的 k 个随机状态,
- random — 重放到目前为止在整个训练过程中遇到的 k 个随机状态。
我对未来方法的解释是,如果当前正在回放的过渡已经在剧集中发生,我们只能选择 k 个随机状态,所以这至少是我们第二次看到当前过渡。如果在具有大状态空间(尤其是具有连续特征)的环境中工作,这似乎不太可能。在解释如何实施这一策略时,我是否遗漏了一些明显的东西?