n-step SARSA 什么时候发生反向传播?

人工智能 强化学习 萨顿巴托 萨尔萨
2021-11-01 23:42:31

我试图从Sutton and Barto (2nd Edition)中了解 n 步 SARSA 的算法。据我了解,该算法应该更新 n 个状态动作值,但我看不到它向后传播的位置。有人可以向我解释这是如何工作的吗?

1个回答

重要的部分,您可以在其中看到单个奖励值用于n不同的更新,是总和的部分R一世值与一世范围从τ+1τ+n被分配到G.

所以是的,算法的外循环每次迭代总是最多进行一次更新,但对于该更新,它使用多个先前观察到的R一世价值观。其中每一个R一世values 用于多个更新(不是同时进行多个更新,而是多个更新分布在不同的迭代中)。