一段时间以来,我一直在尝试将GAE添加到我的 A2C 实现中,但我似乎不太了解它是如何工作的。
我对它的理解是,它通过基于推出中的值“平均”(或概括)优势来减少优势估计函数的方差。
我试图自己完成数学运算,最后我在整个推出过程中只有一个优势,对吗?通常,我们在推出的每个时间步都有一个优势。
谁能解释一下 GAE 的直觉?
一段时间以来,我一直在尝试将GAE添加到我的 A2C 实现中,但我似乎不太了解它是如何工作的。
我对它的理解是,它通过基于推出中的值“平均”(或概括)优势来减少优势估计函数的方差。
我试图自己完成数学运算,最后我在整个推出过程中只有一个优势,对吗?通常,我们在推出的每个时间步都有一个优势。
谁能解释一下 GAE 的直觉?
我在这篇论文的补充材料: DeepMimic中发现了对 GAE 的解释非常直观。您无需阅读论文。直接进入第 143:15 页的补充材料部分。对于 λ-return,您可以在 Sutton 和 Barto 的强化学习书中找到大量信息。希望能帮助到你!
你可以在 Lilian Weng 的博客上找到关于 λ-return 的一个很好的解释:Combining TD and MC Learning 。
广义优势估计器 GAE(λ) 简单地使用 λ-return 来估计优势函数。