在论文Learning to predict by the methods of temporal Differences (p. 15) 中,时间差异学习中的权重被更新为由等式给出
什么时候,如在 TD(0) 中,该方法是如何学习的?看起来,随着,永远不会有体重变化,因此也不会学习。
我错过了什么吗?
在论文Learning to predict by the methods of temporal Differences (p. 15) 中,时间差异学习中的权重被更新为由等式给出
什么时候,如在 TD(0) 中,该方法是如何学习的?看起来,随着,永远不会有体重变化,因此也不会学习。
我错过了什么吗?
当 TD(0) 中的 lambda = 0 时,该方法如何学习?看起来,当 lambda = 0 时,权重永远不会发生变化,因此也不会学习。
我认为您缺少的细节是总和中的一项(总和的最终“迭代”,即) 拥有被提升到权力,以及任何提升到权力的东西(甚至) 等于. 因此对于,您的更新方程变为
这基本上是一步更新(就像 Sarsa 一样)。