广义优势估计如何工作?

数据挖掘 机器学习 强化学习
2021-10-12 06:45:29

一段时间以来,我一直在尝试将GAE添加到我的 A2C 实现中,但我似乎不太了解它是如何工作的。

我对它的理解是,它通过基于推出中的值“平均”(或概括)优势来减少优势估计函数的方差。

我试图自己完成数学运算,最后我在整个推出过程中只有一个优势,对吗?通常,我们在推出的每个时间步都有一个优势。

谁能解释一下 GAE 的直觉?

2个回答

我在这篇论文的补充材料: DeepMimic中发现了对 GAE 的解释非常直观您无需阅读论文。直接进入第 143:15 页的补充材料部分。对于 λ-return,您可以在 Sutton 和 Barto 的强化学习书中找到大量信息。希望能帮助到你!

你可以在 Lilian Weng 的博客上找到关于 λ-return 的一个很好的解释:Combining TD and MC Learning

广义优势估计器 GAE(λ) 简单地使用 λ-return 来估计优势函数。