数据挖掘 - 广义优势估计如何工作？ - 吾爱随笔录

数据挖掘机器学习强化学习

2021-10-12 06:45:29

一段时间以来，我一直在尝试将GAE添加到我的 A2C 实现中，但我似乎不太了解它是如何工作的。

我对它的理解是，它通过基于推出中的值“平均”（或概括）优势来减少优势估计函数的方差。

我试图自己完成数学运算，最后我在整个推出过程中只有一个优势，对吗？通常，我们在推出的每个时间步都有一个优势。

谁能解释一下 GAE 的直觉？

2个回答

我在这篇论文的补充材料： DeepMimic中发现了对 GAE 的解释非常直观。您无需阅读论文。直接进入第 143:15 页的补充材料部分。对于 λ-return，您可以在 Sutton 和 Barto 的强化学习书中找到大量信息。希望能帮助到你！

你可以在 Lilian Weng 的博客上找到关于 λ-return 的一个很好的解释：Combining TD and MC Learning 。

广义优势估计器 GAE(λ) 简单地使用 λ-return 来估计优势函数。

其它你可能感兴趣的问题