我正在阅读萨顿的书,并使用基于样本的学习来估计期望值,我们有这个公式
我不太明白的是为什么它被称为目标,因为它是样本,它不是实际的目标值,那么我们为什么要走向错误的值呢?
我正在阅读萨顿的书,并使用基于样本的学习来估计期望值,我们有这个公式
我不太明白的是为什么它被称为目标,因为它是样本,它不是实际的目标值,那么我们为什么要走向错误的值呢?
这是我们的“当前”目标。我们假设我们现在得到的值至少更接近“真实”目标。
我们不是在朝着错误的价值观前进,而是在远离更错误的价值观。
当然,这一切都是基于随机试验,所以说任何确定的东西(例如:“我们保证在每一步都改进”)如果不进行概率工作就很难证明。价值函数的误差期望(与真实价值函数相比)会降低,这就是我们所能说的。
如果您指定萨顿书的章节和页码,对我来说会很有帮助。但据我了解您的问题,我将尝试解释这一点。想想TD更新。样本包含. 使用增量更新我们可以写:
我们称之为作为 TD 目标。从上面的等式你已经可以看出实际上是对. 我们在打电话无偏估计,因为. 这意味着期望超过引导我们找到真实的状态价值函数,.
对于 monte carlo 更新,将应用相同的解释。我希望这能回答你的问题。