我试图从Sutton and Barto (2nd Edition)中了解 n 步 SARSA 的算法。据我了解,该算法应该更新 n 个状态动作值,但我看不到它向后传播的位置。有人可以向我解释这是如何工作的吗?
n-step SARSA 什么时候发生反向传播?
人工智能
强化学习
萨顿巴托
萨尔萨
2021-11-01 23:42:31
1个回答
重要的部分,您可以在其中看到单个奖励值用于不同的更新,是总和的部分值与范围从到被分配到.
所以是的,算法的外循环每次迭代总是最多进行一次更新,但对于该更新,它使用多个先前观察到的价值观。其中每一个values 用于多个更新(不是同时进行多个更新,而是多个更新分布在不同的迭代中)。
其它你可能感兴趣的问题