为什么 TD Learning 需要马尔可夫域?

人工智能 强化学习 蒙特卡罗方法 时差法 马尔可夫属性 动态规划
2021-11-04 05:30:21

我和我的一个朋友正在讨论动态规划、蒙特卡洛和时间差 (TD) 学习作为策略评估方法之间的区别——我们同意动态规划 需要马尔可夫假设而蒙特卡洛策略评估确​​实需要的事实不是

然而,他也指出时间差分学习不能处理非马尔可夫域,即它依赖于马尔可夫假设。为什么会这样?

按照我的理解,TD学习更新本质上与蒙特卡洛更新相同,除了返回而不是使用整个轨迹计算,而是从先前的价值函数估计中引导,即我们可以在遇到 a 时立即更新该值(s,a,r,s)元组,我们不必等待情节(如果有限)终止。

马尔可夫假设在哪里使用,即在给定现在的情况下未来独立于过去

1个回答

在推导状态值的贝尔曼方程时使用马尔可夫假设:

v(s)=aπ(a|s)r,sp(r,s|s,a)(r+γv(s))

这个等式成立的一个要求是p(r,s|s,a)是一致的。当前状态s是该函数的关键参数。没有对先前状态、动作或奖励的历史进行调整。这与要求状态的马尔可夫特征相同,即s包含预测下一步结果概率所需的所有信息。

在基本 TD 学习中采样的一步 TD 目标只是这个的内部部分:

Gt:t+1=Rt+1+γv^(St+1)

采样时等于v(s)期待*,St=s. 也就是说,当您测量 TD 目标的单个实例并使用它来更新值函数时,您隐含地假设这些值或rt+1st+1您观察到的发生概率由π(a|s)p(r,s|s,a)如贝尔曼方程所示。

所以 TD 学习背后的理论使用马尔可夫假设,否则采样的 TD 目标将是不正确的。

在实践中,您可以摆脱轻微的非马尔可夫环境——例如,机器状态的大多数测量都是在某种程度上忽略细节的近似值,而 TD 学习可以解决许多机器人环境中的最优控制。然而,蒙特卡洛方法对不完全马尔可夫的状态表示更为稳健。


* 从技术上讲,这个样本是有偏见的,因为v^(St+1)学习开始时是不正确的。偏差随着时间和多次更新而减少。因此,学习过程中的期望值与贝尔曼方程所示的真实值大致相同。