这是我无法理解的事情,最初我认为这是一个错字,但事实并非如此。
本质上,在 TD 学习中,我们正在尝试学习价值函数。价值函数告诉我状态/观察有多有利。假设 ~~~~discount/decay/lambda~~~ 因子为 1,如果V(s)为 10,并且我采取行动(动作a)并且V(s')变为 5,那么我期望奖励为 -5:
R(a) = V(s') - V(s)
因此,在 TD 学习公式中,当它收敛时忽略 lambda(无论 alpha 或学习率如何),我希望α(r + V(s') - V(s))为 0。但如果 V(s') - V(s) 等于奖励,然后我以 r + r => 2r 结束!!
所以我希望在公式中看到-r而不是r。
那么我的想法哪里错了?
提前致谢
