如果策略是固定的,则称 MDP 成为 MRP。
我会在这里稍微改变措辞,以:
如果策略是固定的,则 MDP 可以准确地建模为 MRP。
为什么会这样?转换和奖励不是仍然由动作和当前状态参数化吗?换句话说,转移矩阵和奖励矩阵不还是立方体吗?
MDP 中的转移和奖励矩阵保持不变,但可以将它们展平为等效的 MRP,因为就下一个状态和奖励的观察而言,所采取的行动只是转移规则的一部分——如果策略是固定的,那么下一个状态和奖励的所有概率也是固定的。
更具体地说,如果你有一个 MDP| 一个|转移矩阵磷一个ss'和固定的政策π(一|小号),那么您可以创建一个带有总和的组合转移矩阵:
磷ss'=∑一个∈ _π(一|小号)磷一个ss'
你也可以类似地减少奖励函数。完成后,您就有了描述 MRP 的数据。
它如何切换到不受操作影响的 MRP?
如果 MDP 代表一个实际系统,其中代理仍在执行操作,那么这些操作当然仍然存在于系统中,并且仍然会影响它。不同之处在于,如果您知道代理的策略,那么动作选择是可预测的,并且 MRP 表示涵盖了观察到的状态转换和奖励概率的完整定义。