是否有 RL 算法也尝试预测下一个状态?

人工智能 强化学习 深度学习 基于模型的方法 算法请求
2021-10-24 03:10:53

到目前为止,我已经开发了简单的 RL 算法,例如 Deep Q-Learning 和 Double Deep Q-Learning。另外,我读了一些关于 A3C 和策略梯度的文章,但只是肤浅的。

如果我没记错的话,所有这些算法都专注于动作的价值,并试图获得最大的价值。给定代理可能采取的行动,是否有一种 RL 算法也试图预测下一个状态将是什么?

那么,在不断训练获得最佳奖励的同时,还会不断训练以尽可能准确地预测下一个状态吗?然后总是将下一个状态的预测作为输入传递给决定要采取的行动的 NN。似乎是一条有用的信息。

2个回答

是的,有些算法试图预测下一个状态。通常这将是一个基于模型的算法——这是代理试图利用环境模型来帮助它学习的地方。我不确定了解这方面的最佳资源,但我的首选推荐始终是 Sutton 和 Barto 的书。

本文介绍PlanGAN;该模型的想法是使用 GAN 生成轨迹。这不仅包括预测下一个状态,还包括预测轨迹中的所有未来状态。

本文介绍了一种新颖的功能来激励代理访问未探索的状态。这个想法是,对于未探索的状态,从状态-动作元组预测下一个状态的模型将具有很高的误差(通过与真实下一个状态的欧几里德距离来衡量),他们将此误差添加到原始奖励中以做出修改后的奖励。

本文介绍 Dreamer。这是所有学习都在潜在空间中完成的地方,因此必须学习这个潜在空间的转换动态,这是需要学习下一个状态的另一个例子。

这些只是试图预测下一个状态的论文的一些示例,我建议您寻找更多的论文。

查看Imagination-Augmented Agents论文 - 似乎它与您所说的一样。代理本身就是你熟悉的标准A3C。新颖之处在于“想象”环境模型,它被训练来预测环境的行为。