在每个状态下具有单个动作的马尔可夫决策过程的最佳值是多少?

数据挖掘 机器学习 强化学习 q学习 马尔科夫过程
2022-01-29 23:51:15

我正在尝试解决一些关于 MRP 的问题(即一个马尔可夫决策过程,每个状态只有一个可能的动作)。设置如下:

  • 有两种状态(ab) 迈向a是终端。

  • 所有奖励都是零,踏出折扣bb1,所有其他步骤的折扣为零

  • 可能的情况是:ab(可能性1),ba(可能性p) 和bb(可能性1p)。

我的第一个问题是,这里每个状态的最优值是否为零?如果不是,你是如何得出这个的?

我的第二个问题是我们是否需要一个参数λ并且有一个特点ϕ这样

λ×ϕ(a)λ×ϕ(b)

在状态 a 和 b 处逼近最优值,我们试图逼近这样的λ通过 TD(0) 开始λ0=1我怎样才能找到的期望值λ在更新一集之后p? (E[λT]在哪里T是代表剧集持续时间的随机数)

我所说的情节是指如果我们从状态 b 回到 a 情节就结束了。

1个回答

嗨,大家好,感谢您的评论,很抱歉回复缓慢。我不能直接回复他们,因为我不被允许。

@Constantinos,关于b:b--> b,b--> a是不同的动作。我认为你误解了我的要求。只有一个动作(你称之为任意的),但有两种可能的结果。

@Neil Slater,是的,我认为这个问题写得不好。MRP 被定义为一个 MDP,在每个状态中只有一个可能的操作(或者没有操作,取决于您如何看待它)。奖励是一个实数值,它是将一对状态(例如 (a,b) 或 (b,b) 等)映射到实数值的函数的输出。折扣的定义类似。

真正问题的症结在于:找到一个线性函数逼近参数λ这样λϕ(s)v(s)在哪里v(s)是与某个状态相关联的值s. 我相信这些价值观被定义为v(s)=sP(s,s)(R(s,s)+γv(s))在哪里R(.,.)是奖励转移函数,并且P(.,.)是将状态对映射到概率的函数。

我认为我对此感到迷茫的主要原因是因为问题本身非常模棱两可,所以我试图启发式地填补空白。

多谢你们