Rainbow vs A3C……太不公平了?
数据挖掘
强化学习
2022-01-22 23:14:06
1个回答
请记住,基于 DQN 的方法具有重放内存,该内存在每个时间步被采样并用于优化模型,而 A3C 仅在剧集结束时进行优化。因此,对于 4000 个时间步长和每集 1000 个时间步长,A3C 优化了 4 次,而 DQN 可以优化 3000+ 次,具体取决于实现。这可以解释为什么给定相同数量的时间步,DQN 的学习速度更快。

