在强化学习 (RL) 问题 (Sutton & Barto, 1998) 的标准马尔可夫决策过程 (MDP) 形式化中,决策者与由有限状态和动作空间组成的环境交互。
这是本文的摘录,尽管它与论文的内容本身无关(只是介绍的一小部分)。
有人可以解释一下为什么研究有限状态和动作空间是有意义的吗?
在现实世界中,我们可能无法将自己限制在有限数量的状态和动作中!将人类视为 RL 代理,这真的没有意义。
在强化学习 (RL) 问题 (Sutton & Barto, 1998) 的标准马尔可夫决策过程 (MDP) 形式化中,决策者与由有限状态和动作空间组成的环境交互。
这是本文的摘录,尽管它与论文的内容本身无关(只是介绍的一小部分)。
有人可以解释一下为什么研究有限状态和动作空间是有意义的吗?
在现实世界中,我们可能无法将自己限制在有限数量的状态和动作中!将人类视为 RL 代理,这真的没有意义。
除了评论中概述的原因之外,还请注意,如果状态空间和动作空间都是有限且具有可行大小的,则可以使用表格方法,并且它们有一些优点(例如存在收敛保证并且通常要调整的超参数数量较少)。
注意:我假设您的意思是“有限”的可数动作和状态集。
MDP(s) 不仅限于有限空间。它们也可以用于连续/不可数的动作和状态集。
马尔可夫决策过程(MDP)是一个元组在哪里是一组状态,是动作的集合,是一个函数,表示如果动作在状态上的概率分布在状态执行. [1][2]
其中,Q-function 定义为:
注意只是奖励功能的特例.
现在,如果状态和动作是离散的,那么,作为状态-动作矩阵的 Q-Table 方法[3]可以帮助我们评估功能和优化效率。
然而,在状态/动作集是无限或连续的情况下,深度网络优于近似功能。[4]。
Q-Learning 是 Off-Policy 方法,不需要政策职能
编辑:我要感谢@nbro 的编辑建议。
据我所知,您无法以数字方式计算或解决不可数的大 MDP。它需要以某种容量离散化。这同样适用于经典控制:您无法优化真正的功能,因此您使用系统的离散近似并解决该问题。