有没有办法在没有任何环境的情况下训练 RL 代理?

人工智能 强化学习 q学习 深度学习 环境
2021-11-09 08:05:49

Demonstrations 中进行 Deep Q-learning之后,我想通过使用带有演示数据的监督学习来避免早期学习期间潜在的不安全行为。但是,我正在遵循的实现仍然使用环境。我可以在没有环境的情况下训练我的代理吗?

1个回答

有许多技术可以在不明确与环境交互的情况下训练 RL 代理,其中一些在您链接的论文中被引用。哎呀,即使像基础DQN 论文中那样使用体验回放也是一种方法。然而,虽然许多模型为了安全或速度而使用某种预训练,但有几个原因可以说明尽可能使用环境。

最终,您的 RL 代理将被放置在一个环境中以采取自己的行动。这就是我们训练 RL 代理的原因。我假设,根据您的问题,在此阶段不会发生学习。

也许你的代理遇到了一个新
情况(s,a)你的代理人会遇到的。如果不是,您的代理将不会了解这些情况,并且它在这些情况下总是表现不佳。这种对状态-动作空间的覆盖不足可能是由环境中的随机性或非平稳性引起的。

也许老师并不完美
如果你不允许你的代理从自己的经验中学习,它的表现只会和收集演示数据的代理一样好。这是我们没有理由为自己设定的性能上限。