强化学习的结果

数据挖掘 机器学习 强化学习
2022-02-19 11:31:57

我已经开始阅读一些关于强化学习的文献,但我无法理解应用 RL 的结果是什么。我会更具体:让我们在连续状态空间、有限数量的动作和策略函数的线性逼近器中处理时间序列问题。所以我遵循一种算法来找到最佳策略,即在这种特定情况下,我考虑过的线性函数权重的最佳值。现在我的疑问就在这里:所谓的最佳策略是在应用算法的过程中找到的,或者我必须取最终的最优值,并且对于每个时期,我必须使用它们来找出哪个动作使动作最大化-价值函数?换句话说,RL 的结果是在每个时间步(重新)应用的经典函数,就好像它是回归一样?我认为这个问题的答案是否定的,但如果有人能证实这一点,我将不胜感激。

(为了更好地解释我所说的“在应用算法的过程中发现的策略”的意思,让我们考虑这个愚蠢的考虑:最好的策略还包括那些探索的时间步骤)

2个回答

因此,您似乎对一些事情感到困惑。简短的回答是否定的。

在强化学习 (RL) 中,目标是学习在马尔可夫决策过程 (MDP) 中采取行动以最大化奖励的策略。如果您的问题可以描述为马尔可夫决策过程,那么 RL 可能是一个很好的解决方案。理论结果表明,通过适当的退火、线性策略、连续状态空间、有限动作,“Q-Learning”RL 算法将收敛到最优线性策略,其中 Q-Learning 学习从 (state, action) 映射的函数到预期的折扣奖励总和。

马尔可夫决策过程最容易被认为是一个图。在一个“情节”中,我们有一个初始状态(图的节点),然后在每个步骤中,我们(沿边)转换到另一个状态(节点),直到我们达到(或可能永远不会达到)结束情节的终端状态. 在每一步中,我们还会选择一个动作并获得奖励。每一步之后你转换到什么状态是随机的,但是“转换概率”是你当前状态和选择的动作 [ ] 的函数,我们的奖励是随机的,但是概率是我们当前状态、动作和结果状态的函数 [P(s)=f(s,a)P(r)=f(s,a,s)]。我们的目标是最大化该奖励的预期总和(技术上的折扣总和)。实际上,我们在这个图上从一个节点到另一个节点随机弹跳,采取影响我们目标节点的行动,并收集奖励。在您的情况下,图形不是必要的抽象,而是我们的状态是连续向量。

Q-Learning(和一般的 RL 算法)通过在我们的 MDP 中播放重复剧集来学习,学习优化折扣的奖励总和。在每一集之后,Q-Learning 更新一个学习函数,该函数从(状态、动作)映射到预期的折扣奖励总和。算法权衡他们学到的“利用”模式以获得奖励,并“探索”新的(状态、动作)对。所以算法不一定是在训练时最大化奖励。

所以回答你的问题。Q-learning 不会在剧集中学习。它会在每一集之后更新学习到的函数,最终收敛到你的最终策略。最终策略就是您在应用程序中使用的策略。该策略是从观察到的状态和动作映射到预期奖励的函数。只要在剧集中或从剧集到剧集没有变化的“隐藏”或“未观察到的”信息,这就会起作用。如果存在“隐藏”信息,则 RL/MDP 可能不适合。相反,它可能是“POMDP”,它需要除 RL 之外的其他工具来解决。此外,如果您无法重置环境并运行多个情节,那么 RL/POMDP/MDP 将不适合。话虽如此,很多人已经成功地将 RL 应用于不符合这些规则的问题(例如 多智能体强化学习)。因此,如果您的问题不适合,这更像是一个警告而不是规则。

RL 的结果是在每个时间步(重新)应用的经典函数吗?
在某种程度上是的,当使用 RL 寻找最佳策略时,您最终会得到一个可以描述为从可能状态到可能动作的函数(经典与否)的策略。

好像是一种回归?
不,回归算法“解决”了特征空间和目标空间之间的函数。
在 RL 中,这两个空间都没有(非常不同的)含义。
此外,RL 算法考虑了多步预测(状态转换 + 奖励),这在回归问题中并不是很直接。