强化学习适合实时系统吗?

人工智能 强化学习 应用 即时的
2021-10-21 11:16:00

据我所知,任何涉及 RL 的结果几乎总是需要大量的模拟才能达到一个好的策略。

任何形式的强化学习都适用于实时系统吗?

1个回答

简短的回答:是的,是的。

解释

强化学习可以被认为是一种在线学习。也就是说,您可以使用单个数据/奖励对来训练您的模型。与任何在线学习算法一样,有一些事情需要考虑。

该模型倾向于忘记获得的知识。为了克服这个问题,可以将新数据保存在称为历史的循环缓冲区中,并使用部分新旧数据混合训练模型。这实际上是训练 RL 模型的常用方法,可以用于实时系统。还有其他技术可以克服它。

另一个问题是,如果只向网络提供一个数据点,就不可能应用一些技术,例如批量标准化。