人工智能 - 具有未折扣奖励的 MDP 的价值函数唯一性证明 - 吾爱随笔录

人工智能强化学习

2021-11-07 14:02:53

在有界和无折扣奖励的情况下，如何证明价值迭代得到的价值函数的唯一性？我知道使用Banach 不动点定理可以很容易地证明打折的情况。

1个回答

在奖励不折现的情况下，不能保证收敛，因为迭代过程不是严格的收缩。

不幸的是，我在 ai stackexchange 上找不到数学模式，所以我的答案不是很精确。

但一个简单的例子如下：将“运行”奖励 R 设为 0 以使事情变得更简单，以及具有两个状态 a 和 b 的 MDP。取一个对角线为 0，对角线为 1 的转移矩阵。您将看到该算法将始终翻转 V(a) 和 V(b) 的值，因此不会收敛。

其它你可能感兴趣的问题