数据挖掘 - Rainbow vs A3C……太不公平了？ - 吾爱随笔录

Rainbow vs A3C……太不公平了？

数据挖掘强化学习

2022-01-22 23:14:06

在 Deep Mind 的 Rainbow 论文中，A3C 算法怎么这么慢？比 DDQN 慢两倍……它是针对单个演员训练的吗？:D

A3C 不应该是更强大的东西吗？

例如像这样精彩，取自这里：

1个回答

请记住，基于 DQN 的方法具有重放内存，该内存在每个时间步被采样并用于优化模型，而 A3C 仅在剧集结束时进行优化。因此，对于 4000 个时间步长和每集 1000 个时间步长，A3C 优化了 4 次，而 DQN 可以优化 3000+ 次，具体取决于实现。这可以解释为什么给定相同数量的时间步，DQN 的学习速度更快。

其它你可能感兴趣的问题

上一篇解释多类问题中的套索逻辑回归特征系数下一篇当我们拥有群组的数据时，如何专门针对群组中的个人进行机器学习？