我想构建基于模型的强化学习。我想知道建立模型的过程。
如果我已经有数据,根据实际经验:
我可以使用这些信息来构建基于模型的强化学习吗?还是需要代理直接与环境交互(我的意思是代理应该提供与上述相同的数据)?
我想构建基于模型的强化学习。我想知道建立模型的过程。
如果我已经有数据,根据实际经验:
我可以使用这些信息来构建基于模型的强化学习吗?还是需要代理直接与环境交互(我的意思是代理应该提供与上述相同的数据)?
如果您已经有一些转换元组,那么您可以训练一个模型来使用这些来预测环境动态。但是,您应该小心,您的预先收集的数据足够多样化以“覆盖”足够多的状态/动作空间,以便您的模型保持准确。例如,当你开始训练你的代理时,它可能会开始看到比训练开始时更多的状态空间(想象一下玩 Atari,最初你的代理会很快死去,但随着它变得更好,情节会变得更长)所以你需要确保你有这些在剧集后期出现的状态的数据,否则你的模型只会过度拟合剧集的开始,并且会在这些其他状态上表现不佳,从而减慢甚至禁止学习最优策略。