卷积网络能否预测 RL 代理的状态

人工智能 强化学习 卷积神经网络
2021-10-23 19:06:02

在训练 DQN 代理的过程中,所有访问过的状态都存储在回放缓冲区中。因此,给定合理数量的数据,CNN 实际上是否有可能预测给定动作的下一个 RL 状态(以图像的形式)?

例如,如下图所示的 Atari 游戏 - 在此处输入图像描述 这里代理可以采取 2 个主要动作 - 向左和向右。CNN 是否会为相应的操作生成向右/向左移动的条形图像?我对 CNN 的实际知识非常有限,因此在我开始一个项目之前,我试图评估 CNN 的能力。

1个回答

听起来您的建议与使用计划器的方法中所做的类似。这些方法旨在学习 MDP 的动态,用于在训练期间进行计划;那就是他们希望能够学习转移概率p(s|s,a).

在我最近读到的这篇论文中,他们注意到当状态/动作空间是高维时,学习预测环境动态是很困难的,就像图像的情况一样。因此,虽然理论上可能是可能的,但它很难做到,如果你预测未来会有很多步骤,那么错误就会加剧。

正如参考论文中所做的那样,解决此问题的一种方法是在潜在空间中使用预测环境动态。这意味着他们使用潜在变量来预测下一个状态,例如使用变分自动编码器。