人工智能 - n-step SARSA 什么时候发生反向传播？ - 吾爱随笔录

人工智能强化学习萨顿巴托萨尔萨

2021-11-01 23:42:31

我试图从Sutton and Barto (2nd Edition)中了解 n 步 SARSA 的算法。据我了解，该算法应该更新 n 个状态动作值，但我看不到它向后传播的位置。有人可以向我解释这是如何工作的吗？

1个回答

重要的部分，您可以在其中看到单个奖励值用于 $n$ 不同的更新，是总和的部分 $R_i$ 值与 $i$ 范围从 $\tau + 1$ 到 $\tau + n$ 被分配到 $G$ .

所以是的，算法的外循环每次迭代总是最多进行一次更新，但对于该更新，它使用多个先前观察到的 $R_i$ 价值观。其中每一个 $R_i$ values 用于多个更新（不是同时进行多个更新，而是多个更新分布在不同的迭代中）。

其它你可能感兴趣的问题