理解论文“Learning to predict by the methods of temporal Differences”中的TD(0)方程

人工智能 强化学习 时差法 符号
2021-11-16 06:00:10

在论文Learning to predict by the methods of temporal Differences (p. 15) 中,时间差异学习中的权重被更新为由等式给出

(4)Δwt=α(Pt+1Pt)k=1tλtkwPk.
什么时候λ=0,如在 TD(0) 中,该方法是如何学习的?看起来,随着λ=0,永远不会有体重变化,因此也不会学习。

我错过了什么吗?

1个回答

当 TD(0) 中的 lambda = 0 时,该方法如何学习?看起来,当 lambda = 0 时,权重永远不会发生变化,因此也不会学习。

我认为您缺少的细节是总和中的一项(总和的最终“迭代”,即k=t) 拥有λ被提升到权力0,以及任何提升到权力的东西0(甚至0) 等于1. 因此对于λ=0,您的更新方程变为

Δwt=α(Pt+1Pt)wPt,

这基本上是一步更新(就像 Sarsa 一样)。