Generalized Advantage Estimator 似乎对强化学习中的 PPO 等算法非常有效。但我见过的大多数 A3C 算法都使用平均优势估计。有什么理由吗?
我们可以将 GAE 与 A3C 异步强化学习一起使用吗?
数据挖掘
强化学习
2022-02-23 02:00:08
1个回答
当然可以:
https://github.com/ikostrikov/pytorch-a3c
原因是GAE论文是在A3C之后发布的,所以大多数人会看的论文实现并没有使用GAE。
这里的相关行:https ://github.com/ikostrikov/pytorch-a3c/blob/master/train.py#L95-L98
其它你可能感兴趣的问题