因此,您似乎对一些事情感到困惑。简短的回答是否定的。
在强化学习 (RL) 中,目标是学习在马尔可夫决策过程 (MDP) 中采取行动以最大化奖励的策略。如果您的问题可以描述为马尔可夫决策过程,那么 RL 可能是一个很好的解决方案。理论结果表明,通过适当的退火、线性策略、连续状态空间、有限动作,“Q-Learning”RL 算法将收敛到最优线性策略,其中 Q-Learning 学习从 (state, action) 映射的函数到预期的折扣奖励总和。
马尔可夫决策过程最容易被认为是一个图。在一个“情节”中,我们有一个初始状态(图的节点),然后在每个步骤中,我们(沿边)转换到另一个状态(节点),直到我们达到(或可能永远不会达到)结束情节的终端状态. 在每一步中,我们还会选择一个动作并获得奖励。每一步之后你转换到什么状态是随机的,但是“转换概率”是你当前状态和选择的动作 [ ] 的函数,我们的奖励是随机的,但是概率是我们当前状态、动作和结果状态的函数 [P(s′)=f(s,a)P(r)=f(s,a,s′)]。我们的目标是最大化该奖励的预期总和(技术上的折扣总和)。实际上,我们在这个图上从一个节点到另一个节点随机弹跳,采取影响我们目标节点的行动,并收集奖励。在您的情况下,图形不是必要的抽象,而是我们的状态是连续向量。
Q-Learning(和一般的 RL 算法)通过在我们的 MDP 中播放重复剧集来学习,学习优化折扣的奖励总和。在每一集之后,Q-Learning 更新一个学习函数,该函数从(状态、动作)映射到预期的折扣奖励总和。算法权衡他们学到的“利用”模式以获得奖励,并“探索”新的(状态、动作)对。所以算法不一定是在训练时最大化奖励。
所以回答你的问题。Q-learning 不会在剧集中学习。它会在每一集之后更新学习到的函数,最终收敛到你的最终策略。最终策略就是您在应用程序中使用的策略。该策略是从观察到的状态和动作映射到预期奖励的函数。只要在剧集中或从剧集到剧集没有变化的“隐藏”或“未观察到的”信息,这就会起作用。如果存在“隐藏”信息,则 RL/MDP 可能不适合。相反,它可能是“POMDP”,它需要除 RL 之外的其他工具来解决。此外,如果您无法重置环境并运行多个情节,那么 RL/POMDP/MDP 将不适合。话虽如此,很多人已经成功地将 RL 应用于不符合这些规则的问题(例如 多智能体强化学习)。因此,如果您的问题不适合,这更像是一个警告而不是规则。