是否有经验或理论原因表明具有资格痕迹的演员批评算法尚未得到更充分的探索?我希望在连续的状态动作空间中找到用于连续任务(非偶发性)的论文或实现,或两者兼而有之。
这是我能够找到的关于 SE-AI 的唯一相关问题。为什么 lambda 返回在策略梯度中很少使用?.
虽然我很欣赏这个对话并发现它很有用,但我想知道是否有任何进一步的细节或推理可以帮助解释这个空白。
是否有经验或理论原因表明具有资格痕迹的演员批评算法尚未得到更充分的探索?我希望在连续的状态动作空间中找到用于连续任务(非偶发性)的论文或实现,或两者兼而有之。
这是我能够找到的关于 SE-AI 的唯一相关问题。为什么 lambda 返回在策略梯度中很少使用?.
虽然我很欣赏这个对话并发现它很有用,但我想知道是否有任何进一步的细节或推理可以帮助解释这个空白。
从理论上讲,没有什么可以排除使用- 在演员评论方法中返回。这-return 是蒙特卡洛 (MC) 回报的无偏估计量,这意味着它们本质上是可互换的。事实上,正如在使用广义优势估计的高维连续控制中所讨论的,使用-return 而不是 MC return 实际上可以帮助减少梯度更新的方差。
以上与我在您链接的其他问题中的回答相似,因此让我尝试更具体地回答您的问题。即使我们可以使用-returns,为什么它们在实践中不太常见?我怀疑可能有几个原因:
根据经验,更快的信用分配可能比更低的方差更可取。有时,您的算法的学习速度仅受您了解某些操作后果的速度的限制。在这种情况下,使用 MC 回报更快,即使理论上它的方差高于-返回。
在提出新算法时,添加- 如果其他基线方法不使用它们,返回它可能会给它一个“不公平”的优势(审稿人不喜欢这样),因此为了一致性,研究人员倾向于更简单的 1-step 或 MC 返回。我猜这就是为什么你通常看不到- 发表在提出新的演员批评方法的论文中。在某种意义上,通常假设您总是可以添加- 稍后返回给他们,可能会获得更好的性能。
相当数量的深度 RL 研究人员不知道什么-回报是。如果他们来自纯深度学习背景,则尤其如此;他们可能从未读过《强化学习:介绍》,这是向大多数人介绍 TD 的地方() 和-返回。
例外情况是像我这样的论文(Reconciling-Returns with Experience Replay ) 其中贡献是使用-返回以前无法使用的方法。但是actor-critic方法很容易结合-返回。