最近我了解了RL 的分布式方法,这是一种非常迷人且具有突破性的算法。
我有两个问题:
是什么让它在运行时的性能比 DQN 好得多?我的理解是,在运行时我们仍然需要选择一个期望值最大的动作。但是要计算这些期望值,我们现在必须查看处所有可能动作的分布,然后选择具有最高期望值的动作。这实际上意味着在运行时的额外工作期间
它的收敛速度比普通 DQN 更快的解释是什么?据我了解,政策没有改变,我们仍然从状态中选择最佳动作,然后使用其最佳动作的分布来引导(调整)我们当前状态的最佳动作的分布。
分配部分在哪里发挥作用并使网络在选择动作时更加智能?(目前我们仍然总是选择最高预期动作作为“目标分布”)。