我经常看到深度强化学习这个术语指的是使用神经网络的 RL 算法,无论网络是否深度。
例如,PPO通常被认为是一种深度 RL 算法,但使用深度网络并不是算法的真正组成部分。事实上,他们在论文中报告的例子说他们使用了一个只有 2 层的网络。
这个 SIGGRAPH 项目(DeepMimic:Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills)的名字很深,标题甚至说“深度强化学习”,但如果你阅读这篇论文,你会发现他们的网络仅使用 2 层。
同样,谷歌和伯克利的研究人员通过深度强化学习学习走路的论文在标题中包含深度强化学习,但如果你阅读这篇论文,你会发现他们使用了 2 个隐藏层。
另一个标题中带有深度 RL 的 SIGGRAPH 项目。而且,如果您阅读它,您会惊讶地发现,有 2 个隐藏层。
在Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 一文中,如果您阅读带有超参数的表 1,他们还使用了 2 个隐藏层。
将深度 RL 称为任何使用神经网络的 RL 算法是否标准?