数据挖掘 - 在每个状态下具有单个动作的马尔可夫决策过程的最佳值是多少？ - 吾爱随笔录 - 问答

在每个状态下具有单个动作的马尔可夫决策过程的最佳值是多少？

数据挖掘机器学习强化学习 q学习马尔科夫过程

2022-01-29 23:51:15

我正在尝试解决一些关于 MRP 的问题（即一个马尔可夫决策过程，每个状态只有一个可能的动作）。设置如下：

有两种状态（ $a$ 和 $b$ ) 迈向 $a$ 是终端。
所有奖励都是零，踏出折扣 $b \to b$ 是 $1$ ，所有其他步骤的折扣为零
可能的情况是： $a\to b$ （可能性 $1$ ), $b\to a$ （可能性 $p$ ）和 $b\to b$ （可能性 $1-p$ ）。

我的第一个问题是，这里每个状态的最优值是否为零？如果不是，你是如何得出这个的？

我的第二个问题是我们是否需要一个参数 $\lambda$ 并且有一个特点 $\phi$ 这样

$\lambda \times \phi(a)$ 和 $\lambda \times \phi(b)$

在状态 a 和 b 处逼近最优值，我们试图逼近这样的 $\lambda$ 通过 TD(0) 开始 $\lambda_0 = 1$ 我怎样才能找到的期望值 $\lambda$ 在更新一集之后 $p$ ? ( $E[\lambda_T]$ 在哪里 $T$ 是代表剧集持续时间的随机数）

我所说的情节是指如果我们从状态 b 回到 a 情节就结束了。

1个回答

嗨，大家好，感谢您的评论，很抱歉回复缓慢。我不能直接回复他们，因为我不被允许。

@Constantinos，关于b：b--> b，b--> a是不同的动作。我认为你误解了我的要求。只有一个动作（你称之为任意的），但有两种可能的结果。

@Neil Slater，是的，我认为这个问题写得不好。MRP 被定义为一个 MDP，在每个状态中只有一个可能的操作（或者没有操作，取决于您如何看待它）。奖励是一个实数值，它是将一对状态（例如 (a,b) 或 (b,b) 等）映射到实数值的函数的输出。折扣的定义类似。

真正问题的症结在于：找到一个线性函数逼近参数 $\lambda$ 这样 $\lambda* \phi(s) \approx v(s)$ 在哪里 $v(s)$ 是与某个状态相关联的值 $s$ . 我相信这些价值观被定义为 $v(s) = \sum_{s'}P(s,s')(R(s,s') + \gamma v(s'))$ 在哪里 $R(.,.)$ 是奖励转移函数，并且 $P(.,.)$ 是将状态对映射到概率的函数。

我认为我对此感到迷茫的主要原因是因为问题本身非常模棱两可，所以我试图启发式地填补空白。

多谢你们

其它你可能感兴趣的问题

上一篇鸟类视频分类下一篇直方图中的“bin size”可以被认为是一个规律性约束吗？