我们可以将 GAE 与 A3C 异步强化学习一起使用吗?

数据挖掘 强化学习
2022-02-23 02:00:08

Generalized Advantage Estimator 似乎对强化学习中的 PPO 等算法非常有效。但我见过的大多数 A3C 算法都使用平均优势估计。有什么理由吗?

1个回答

当然可以:

https://github.com/ikostrikov/pytorch-a3c

原因是GAE论文是在A3C之后发布的,所以大多数人会看的论文实现并没有使用GAE。

这里的相关行:https ://github.com/ikostrikov/pytorch-a3c/blob/master/train.py#L95-L98