Rainbow vs A3C……太不公平了?

数据挖掘 强化学习
2022-01-22 23:14:06

在 Deep Mind 的 Rainbow 论文中,A3C 算法怎么这么慢?比 DDQN 慢两倍……它是针对单个演员训​​练的吗?:D

在论文的第 1 页

在此处输入图像描述

A3C 不应该是更强大的东西吗?

例如像这样精彩,取自这里

在此处输入图像描述

1个回答

请记住,基于 DQN 的方法具有重放内存,该内存在每个时间步被采样并用于优化模型,而 A3C 仅在剧集结束时进行优化。因此,对于 4000 个时间步长和每集 1000 个时间步长,A3C 优化了 4 次,而 DQN 可以优化 3000+ 次,具体取决于实现。这可以解释为什么给定相同数量的时间步,DQN 的学习速度更快。