具有未折扣奖励的 MDP 的价值函数唯一性证明

人工智能 强化学习
2021-11-07 14:02:53

在有界和无折扣奖励的情况下,如何证明价值迭代得到的价值函数的唯一性?我知道使用Banach 不动点定理可以很容易地证明打折的情况。

1个回答

在奖励不折现的情况下,不能保证收敛,因为迭代过程不是严格的收缩。

不幸的是,我在 ai stackexchange 上找不到数学模式,所以我的答案不是很精确。

但一个简单的例子如下:将“运行”奖励 R 设为 0 以使事情变得更简单,以及具有两个状态 a 和 b 的 MDP。取一个对角线为 0,对角线为 1 的转移矩阵。您将看到该算法将始终翻转 V(a) 和 V(b) 的值,因此不会收敛。