为什么研究具有有限状态和动作空间的 MDP 有意义?

人工智能 强化学习 马尔可夫决策过程
2021-10-24 06:59:05

在强化学习 (RL) 问题 (Sutton & Barto, 1998) 的标准马尔可夫决策过程 (MDP) 形式化中,决策者与由有限状态和动作空间组成的环境交互。

这是本文的摘录,尽管它与论文的内容本身无关(只是介绍的一小部分)。

有人可以解释一下为什么研究有限状态和动作空间是有意义的吗?

在现实世界中,我们可能无法将自己限制在有限数量的状态和动作中!将人类视为 RL 代理,这真的没有意义。

3个回答

除了评论中概述的原因之外,还请注意,如果状态空间和动作空间都是有限且具有可行大小的,则可以使用表格方法,并且它们有一些优点(例如存在收敛保证并且通常要调整的超参数数量较少)。

注意:我假设您的意思是“有限”的可数动作和状态集。

MDP(s) 不仅限于有限空间。它们也可以用于连续/不可数的动作和状态集。

马尔可夫决策过程(MDP)是一个元组(S,A,Psa,Rssa,γ,So)在哪里S是一组状态,A是动作的集合,Psa:A×S[0,1]是一个函数,表示如果动作在状态上的概率分布a在状态执行s. [1][2]

其中,Q-function 定义为:

(*)Qπ(s,a)=Eπ[t=0+γ(t)rt|so=s,ao=a]

注意rt只是奖励功能的特例Rssa.

现在,如果状态和动作是离散的,那么,作为状态-动作矩阵的 Q-Table 方法[3]可以帮助我们评估Q功能和优化效率。

然而,在状态/动作集是无限或连续的情况下,深度网络优于近似Q功能。[4]

Q-Learning 是 Off-Policy 方法,不需要π政策职能


参考:

  1. RS Sutton 和 AG Barto。强化学习:简介麻省理工学院出版社,1998 年。
  2. Alborz Geramifard、Thomas J. Walsh、Stefanie Tellex、Girish Chowdhary、Nicholas Roy 和 Jonathan P. How。动态规划和强化学习的线性函数逼近器教程机器学习的基础和趋势(R)卷。6、4号(2013)375-454
  3. 安德烈·维奥兰特。简单强化学习:Q-learning创建 q-tablehttps ://towardsdatascience.com,2019。
  4. 阿林德·古普塔。深度 Q 学习,深度 Q 学习,https ://www.geeksforgeeks.org/deep-q-learning/,2020。

编辑:我要感谢@nbro 的编辑建议。

据我所知,您无法以数字方式计算或解决不可数的大 MDP。它需要以某种容量离散化。这同样适用于经典控制:您无法优化真正的功能,因此您使用系统的离散近似并解决该问题。