为什么分布式 DQN 比普通 DQN 更快?

数据挖掘 强化学习 dqn
2022-02-16 06:43:43

最近我了解了RL 的分布式方法,这是一种非常迷人且具有突破性的算法。

我有两个问题:

是什么让它在运行时的性能比 DQN 好得多?我的理解是,在运行时我们仍然需要选择一个期望值最大的动作。但是要计算这些期望值,我们现在必须查看处所有可能动作的分布,然后选择具有最高期望值的动作。这实际上意味着在运行时的额外工作期间xt+1

它的收敛速度比普通 DQN 更快的解释是什么?据我了解,政策没有改变,我们仍然从状态中选择最佳动作,然后使用其最佳动作的分布来引导(调整)我们当前状态的最佳动作的分布。xt+1

分配部分在哪里发挥作用并使网络在选择动作时更加智能?(目前我们仍然总是选择最高预期动作作为“目标分布”)。

1个回答

这意味着要发表评论,但由于我的声誉不足,我无法发表评论。

至于第二个问题,直观地说,不是为一个动作取一个标量值,这最初可能是非常不准确和嘈杂的,取而代之的是一个分布会更准确。我推荐https://flyyufelix.github.io/2017/10/24/distributional-bellman.html这解释了使用分发的直观原因

就收敛而言,实际上并不能保证收敛。然而,在论文中解释说,为了保证分布 DQN 收敛,必须满足 gamma 收缩,如果您使用 wasserstein 距离测量分布之间的距离,这将是正确的,但尝试最小化是不切实际的那个距离,所以分布式 DQN 使用交叉熵代替,你可以找到梯度,并执行反向传播....等

您可能对“使用分位数回归的分布式强化学习” https://arxiv.org/pdf/1710.10044.pdf感兴趣, 它旨在改进原始的分布式 DQN 算法