据我所知,任何涉及 RL 的结果几乎总是需要大量的模拟才能达到一个好的策略。
任何形式的强化学习都适用于实时系统吗?
据我所知,任何涉及 RL 的结果几乎总是需要大量的模拟才能达到一个好的策略。
任何形式的强化学习都适用于实时系统吗?
简短的回答:是的,是的。
解释
强化学习可以被认为是一种在线学习。也就是说,您可以使用单个数据/奖励对来训练您的模型。与任何在线学习算法一样,有一些事情需要考虑。
该模型倾向于忘记获得的知识。为了克服这个问题,可以将新数据保存在称为历史的循环缓冲区中,并使用部分新旧数据混合训练模型。这实际上是训练 RL 模型的常用方法,可以用于实时系统。还有其他技术可以克服它。
另一个问题是,如果只向网络提供一个数据点,就不可能应用一些技术,例如批量标准化。