请注意,在下面的公式中,最右边的项乘以是
注意是第一个总和的索引。
但是,在下面的公式中,该术语是,这是在第一个等式中。
注意是第二个总和的索引。
在我看来,第一个等式似乎是合理的。这在第二个实际上似乎像折扣因子一样工作。
在另一个国际象棋引擎Giraffe中,作者引用了同一篇论文,注意到第一个等式,但随后继续实施第二个等式。另见KnightCap 论文。
请注意,在下面的公式中,最右边的项乘以是
注意是第一个总和的索引。
但是,在下面的公式中,该术语是,这是在第一个等式中。
注意是第二个总和的索引。
在我看来,第一个等式似乎是合理的。这在第二个实际上似乎像折扣因子一样工作。
在另一个国际象棋引擎Giraffe中,作者引用了同一篇论文,注意到第一个等式,但随后继续实施第二个等式。另见KnightCap 论文。
第二个等式是正确的。在 TD (), 这在, 和蒙特卡洛回报(使用完整情节的回报).
在第一个等式中,可以解释为...总结完全相同的时间差项多次(具体来说,次),但每次乘以不同的标量。我不确定这有什么用处。
在第二个等式中,可以解释为加权组合;
对于熟悉 TD(), 萨尔萨 ()、资格痕迹等来自强化学习文献,这更有意义。该符号与 TD 等算法的标准文献仍有一些不同(),但实际上一旦你注意到在本文中他们讨论的领域只有与终端状态相关的奖励,而没有中间奖励,实际上就变得等价了。
直观地说,他们在做什么参数为短期预测/短期“期望”(英语意义上的单词,而不是单词的数学意义上的)或奖励观察分配更多的权重(或“信用”或“重要性”),长期预测/观察。在极端情况下,你完全忽略了长期的预测/观察,只传播观察到的奖励非常缓慢,一步一步地传播。在另一个极端情况下,您将在剧集结束时观察到的奖励以相同的权重传播到剧集的开始,通过您进入的所有状态,为观察到的奖励赋予它们相同的权重。和,你选择这两个极端之间的平衡。
另请注意,KnightCap 论文中的方程式(5)(他们类似地讨论了,就像我上面做的那样)如果我们从你的问题中取第一个方程是不正确的,但如果我们取第二个方程是正确的。
当然,第一个等式是正确的。d是时间差,它是当前状态和下一个状态之间的差。当前状态是i,这个差值需要在求和循环内保持不变。
第二个等式只是一个拼写错误。