我在openai 健身房玩,试图更好地理解强化学习。您可以修改的一个代理参数是动作空间,即代理在每个状态下可以在环境中采取的具体动作,例如“左”、“右”、“上”或“下”,如果环境是具有 4 个离散动作的游戏.
在我的研究中,我没有发现任何地方明确指出,如果动作空间更大, RL 模型,特别是PPO2将需要更长的时间来训练。
其他一切都一样;相同的数据、相同的环境、相同的超参数、相同的硬件,具有较大动作空间(更多可能动作)的模型是否会比具有较小动作空间的模型需要更长的训练时间(1 集)?
(例如,具有 100 种可能动作的智能体训练 1 集是否会比具有 2 种可能动作的智能体花费更长的时间?)
直觉上,我会认为代理拥有的动作越多,它在每个状态下的“选择”就越多,因此在其中一个动作中进行选择需要更长的时间。但同样,我还没有找到任何证明或反驳这一点的东西。