在平均奖励设置中,我们有:
第二个方程是如何从第一个方程推导出来的?
在平均奖励设置中,我们有:
第二个方程是如何从第一个方程推导出来的?
我们假设我们的 MDP 是遍历的。粗略地说,这意味着无论 MDP 在哪里开始(即无论我们从哪个状态开始)或代理早期采取的任何行动都只能对 MDP 产生有限的影响,并且在限制范围内(如) 处于给定状态的期望仅取决于策略以及 MDP 的过渡动态。
这意味着,最终,对于一些大. 因此,当我们取无限长时期内收到的奖励的期望值的平均值时,由于我刚才提到的. 要了解为什么两者相等,请回想收到的奖励取决于当前状态和所采取的行动——为了更好地强调这一点,我将简要表示时间步的奖励作为. 如果我们处于稳态分布,即状态分布现在是固定的,并且我们的动作仍然按照我们的策略进行,那么期望值未来都一样因为策略和状态分布都没有改变(回想一下,平均奖励是在平均奖励设置中评估策略的一种方式,因此可以肯定这不会改变)。
一种思考方式是,既然我们知道,最终,将等于,所以如果我们保持无限数量的这些,它们的平均值当然会收敛到相同的值。想象一下,如果我给你序列 1, 2, 3, 4, 4, 4, 4, ........, 4 并要求你取平均值 - 如果我们有无限数量的 4,那么平均值当然是4。