在推导状态值的贝尔曼方程时使用马尔可夫假设:
v(s)=∑aπ(a|s)∑r,s′p(r,s′|s,a)(r+γv(s′))
这个等式成立的一个要求是p(r,s′|s,a)是一致的。当前状态s是该函数的关键参数。没有对先前状态、动作或奖励的历史进行调整。这与要求状态的马尔可夫特征相同,即s包含预测下一步结果概率所需的所有信息。
在基本 TD 学习中采样的一步 TD 目标只是这个的内部部分:
Gt:t+1=Rt+1+γv^(St+1)
采样时等于v(s)期待*,当St=s. 也就是说,当您测量 TD 目标的单个实例并使用它来更新值函数时,您隐含地假设这些值或rt+1和st+1您观察到的发生概率由π(a|s)和p(r,s′|s,a)如贝尔曼方程所示。
所以 TD 学习背后的理论使用马尔可夫假设,否则采样的 TD 目标将是不正确的。
在实践中,您可以摆脱轻微的非马尔可夫环境——例如,机器状态的大多数测量都是在某种程度上忽略细节的近似值,而 TD 学习可以解决许多机器人环境中的最优控制。然而,蒙特卡洛方法对不完全马尔可夫的状态表示更为稳健。
* 从技术上讲,这个样本是有偏见的,因为v^(St+1)学习开始时是不正确的。偏差随着时间和多次更新而减少。因此,学习过程中的期望值与贝尔曼方程所示的真实值大致相同。