卷积网络能否预测 RL 代理的状态
人工智能
强化学习
卷积神经网络
2021-10-23 19:06:02
1个回答
听起来您的建议与使用计划器的方法中所做的类似。这些方法旨在学习 MDP 的动态,用于在训练期间进行计划;那就是他们希望能够学习转移概率.
在我最近读到的这篇论文中,他们注意到当状态/动作空间是高维时,学习预测环境动态是很困难的,就像图像的情况一样。因此,虽然理论上可能是可能的,但它很难做到,如果你预测未来会有很多步骤,那么错误就会加剧。
正如参考论文中所做的那样,解决此问题的一种方法是在潜在空间中使用预测环境动态。这意味着他们使用潜在变量来预测下一个状态,例如使用变分自动编码器。