如果目标不是真正的目标,为什么在蒙特卡洛和 TD 学习中称为“目标”?

人工智能 机器学习 强化学习 术语 蒙特卡罗方法 时差法
2021-10-19 15:58:24

我正在阅读萨顿的书,并使用基于样本的学习来估计期望值,我们有这个公式

new estimate=old estimate+α(targetold estimate)

我不太明白的是为什么它被称为目标,因为它是样本,它不是实际的目标值,那么我们为什么要走向错误的值呢?

2个回答

这是我们的“当前”目标。我们假设我们现在得到的值至少更接近“真实”目标。

我们不是在朝着错误的价值观前进,而是在远离更错误的价值观。

当然,这一切都是基于随机试验,所以说任何确定的东西(例如:“我们保证在每一步都改进”)如果不进行概率工作就很难证明。价值函数的误差期望(与真实价值函数相比)会降低,这就是我们所能说的。

如果您指定萨顿书的章节和页码,对我来说会很有帮助。但据我了解您的问题,我将尝试解释这一点。想想TD更新。样本包含(st,at,rt+1,st+1). 使用增量更新我们可以写:

vt(s)=1tj=1t(rt+1+γvst+1)
vt(s)=vt1(s)+α(rt+1+γvt1(st+1)vt1(st))
我们称之为rt+1+γvt1(st+1)作为 TD 目标。从上面的等式你已经可以看出rt+1+γvt1(st+1)实际上是对v(s). 我们在打电话rt+1+γvt1(st+1)无偏估计,因为E[rt+1+γvt1(st+1)]=vt(st). 这意味着期望超过rt+1+γvt1(st+1)引导我们找到真实的状态价值函数,vt(s).

对于 monte carlo 更新,将应用相同的解释。我希望这能回答你的问题。