数据挖掘 - 为什么分布式 DQN 比普通 DQN 更快？ - 吾爱随笔录 - 问答

为什么分布式 DQN 比普通 DQN 更快？

数据挖掘强化学习 dqn

2022-02-16 06:43:43

最近我了解了RL 的分布式方法，这是一种非常迷人且具有突破性的算法。

我有两个问题：

是什么让它在运行时的性能比 DQN 好得多？我的理解是，在运行时我们仍然需要选择一个期望值最大的动作。但是要计算这些期望值，我们现在必须查看处所有可能动作的分布，然后选择具有最高期望值的动作。这实际上意味着在运行时的额外工作期间 $x_{t+1}$

它的收敛速度比普通 DQN 更快的解释是什么？据我了解，政策没有改变，我们仍然从状态中选择最佳动作，然后使用其最佳动作的分布来引导（调整）我们当前状态的最佳动作的分布。 $x_{t+1}$

分配部分在哪里发挥作用并使网络在选择动作时更加智能？（目前我们仍然总是选择最高预期动作作为“目标分布”）。

1个回答

这意味着要发表评论，但由于我的声誉不足，我无法发表评论。

至于第二个问题，直观地说，不是为一个动作取一个标量值，这最初可能是非常不准确和嘈杂的，取而代之的是一个分布会更准确。我推荐https://flyyufelix.github.io/2017/10/24/distributional-bellman.html这解释了使用分发的直观原因

就收敛而言，实际上并不能保证收敛。然而，在论文中解释说，为了保证分布 DQN 收敛，必须满足 gamma 收缩，如果您使用 wasserstein 距离测量分布之间的距离，这将是正确的，但尝试最小化是不切实际的那个距离，所以分布式 DQN 使用交叉熵代替，你可以找到梯度，并执行反向传播....等

您可能对“使用分位数回归的分布式强化学习” https://arxiv.org/pdf/1710.10044.pdf感兴趣，它旨在改进原始的分布式 DQN 算法

其它你可能感兴趣的问题

上一篇人工神经网络是一种元启发式吗？下一篇400 正和 13000 负：如何拆分数据集（训练、测试、验证）