我想更好地理解时间差分学习。特别是,我想知道考虑TD是否谨慎() 作为一种“截断的”蒙特卡洛学习?
TD背后的直觉是什么(λλ)?
时差() 可以被认为是 TD 和 MC 学习的结合,以避免选择一种方法或另一种方法并利用两种方法。
更准确地说,TD() 是时间差分学习-return,定义为所有的平均值-step 返回,为所有人, 其中一个-step return 是用于更新估计值函数的目标,包含未来的奖励(加上对状态价值函数的估计)未来的步骤)。例如,TD(0)(例如 Q-learning 通常表示为 TD(0) 方法)使用-step return,也就是说,它使用一个未来的奖励(加上对下一个状态的值的估计)来计算目标。信实际上是指在这个上下文中用来衡量TD和MC方法组合的一个参数。TD其实有两种不同的视角()、前视图和后视图(资格痕迹)。
博文Reinforcement Learning: Eligibility Traces and TD(lambda)对 TD(),有关更多详细信息,请阅读《强化学习:简介》一书的相关章节。
我是强化学习的新手,几个月来我一直在为 TD() 的逻辑苦苦挣扎。最初在我看来,这是一个成功的纯粹启发式公式,没有任何理论基础。但是现在,我将它简单地理解为平均值的计算,使用循环公式指出当你有一个平均值并且一个新值到达时,它会将平均值修改为等于它与它的差异(平均值)除以新值编号。
总而言之,暴露均值计算是循环均值计算通用公式的一个实例,它使用新值与实际均值之间的差值乘以 0 到 1 之间的任意数字作为增量因子。顺便说一下,这个数字 -通常称为 步长参数- 可以是动态的,并且在第一段(通常的平均值计算)中,它的数量是平均值计算中考虑的值的数量的倒数。
直观地说,我们可以理解它是一个独立于初始(猜测与否)值的准确估计过程。随着大量估计(新值到达),初始值会降低其重要性,并且可以将其扩展到同时处理许多 (lambda) 新值。
直到现在我还没有找到这个解释,即使它很简单,我也不确定它是否正确。如果有人让我知道这种直觉是否正确以及它是否已经暴露在某个地方,我将不胜感激。