更大的动作空间是否需要更长的时间来训练 RL 代理?

数据挖掘 强化学习 开放式健身房
2022-03-02 19:35:31

我在openai 健身房玩,试图更好地理解强化学习。您可以修改的一个代理参数是动作空间,即代理在每个状态下可以在环境中采取的具体动作,例如“左”、“右”、“上”或“下”,如果环境是具有 4 个离散动作的游戏.

在我的研究中,我没有发现任何地方明确指出,如果动作空间更大, RL 模型,特别是PPO2将需要更长的时间来训练。

其他一切都一样;相同的数据、相同的环境、相同的超参数、相同的硬件,具有较大动作空间(更多可能动作)的模型是否会比具有较小动作空间的模型需要更长的训练时间(1 集)?

(例如,具有 100 种可能动作的智能体训练 1 集是否会比具有 2 种可能动作的智能体花费更长的时间?)

直觉上,我会认为代理拥有的动作越多,它在每个状态下的“选择”就越多,因此在其中一个动作中进行选择需要更长的时间。但同样,我还没有找到任何证明或反驳这一点的东西。

1个回答

我认为你的问题有两点:

  • 网络的参数数量。因此,如果您有更多动作来预测网络的动作层将有更多参数,并且理论上更新它需要更长的时间(根据您的计算资源,时间差可能可以忽略不计)。
  • 总训练时间。是的,如果有更多的选择,算法需要更长的时间才能对每个动作的预期奖励产生一些好的估计,以便获得令人满意的性能。如果对于 Critic,您使用的是状态值V(s)代替Q(s,a)您的算法仍然需要更长的时间来探索动作空间并将您的输入状态映射到您的动作空间上的概率分布。