TD(0) off-policy 学习算法的更新公式是(取自D. Silver 课程第 5 讲的这些幻灯片)
V(St)New value←V(St)Old value+α⎛⎝⎜⎜π(At|St)μ(At|St)(Rt+1+γV(St+1))TD target−V(St)Old value⎞⎠⎟⎟
在哪里π(At|St)μ(At|St)是政策的可能性的比率π将在此状态下采取此操作除以行为策略的可能性μ在此状态下执行此操作。
我不明白的是:
假设行为策略μ采取了根据政策不太可能发生的行动π. 我会假设这个词走向0.
π(At|St)μ(At|St)=0
但是,如果这个词去0,整个等式将变为以下
V(St)←V(St)−αV(St)
这意味着我们会降低这个状态的值。
但这对我来说没有任何意义,如果这两个政策非常不同,我们几乎没有获得任何信息。因此,我会假设该值将保持不变而不是减少。
我在这里有什么误解?