为什么固定策略会将马尔可夫决策过程更改为马尔可夫奖励过程?

人工智能 强化学习 马尔可夫决策过程 政策 马尔可夫奖励过程
2021-11-15 13:25:21

如果策略是固定的,则称马尔可夫决策过程 (MDP) 变为马尔可夫奖励过程 (MRP)。

为什么会这样?转换和奖励不是仍然由动作和当前状态参数化吗?换句话说,转移矩阵和奖励矩阵不还是立方体吗?

从我目前的思路来看,唯一不同的是策略没有改变(代理没有学习策略)。其他一切都是一样的。

它如何切换到不受操作影响的 MRP?

我正在阅读 Maxim Lapan 的“Deep Reinforcement Learning Hands-On”,其中说明了这一点。我也在在线文章中找到了这个声明,但我似乎无法理解它。

1个回答

如果策略是固定的,则称 MDP 成为 MRP。

我会在这里稍微改变措辞,以:

如果策略是固定的,则 MDP 可以准确地建模为 MRP。

为什么会这样?转换和奖励不是仍然由动作和当前状态参数化吗?换句话说,转移矩阵和奖励矩阵不还是立方体吗?

MDP 中的转移和奖励矩阵保持不变,但可以将它们展平为等效的 MRP,因为就下一个状态和奖励的观察而言,所采取的行动只是转移规则的一部分——如果策略是固定的,那么下一个状态和奖励的所有概率也是固定的。

更具体地说,如果你有一个 MDP|A|转移矩阵Pssa和固定的政策π(a|s),那么您可以创建一个带有总和的组合转移矩阵:

Pss=aAπ(a|s)Pssa

你也可以类似地减少奖励函数。完成后,您就有了描述 MRP 的数据。

它如何切换到不受操作影响的 MRP?

如果 MDP 代表一个实际系统,其中代理仍在执行操作,那么这些操作当然仍然存在于系统中,并且仍然会影响它。不同之处在于,如果您知道代理的策略,那么动作选择是可预测的,并且 MRP 表示涵盖了观察到的状态转换和奖励概率的完整定义。