使用浅层神经网络的强化学习仍然是深度强化学习吗?

人工智能 深度学习 强化学习 术语 深度学习
2021-11-08 00:14:53

我经常看到深度强化学习这个术语指的是使用神经网络的 RL 算法,无论网络是否深度。

例如,PPO通常被认为是一种深度 RL 算法,但使用深度网络并不是算法的真正组成部分。事实上,他们在论文中报告的例子说他们使用了一个只有 2 层的网络。

这个 SIGGRAPH 项目(DeepMimic:Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills)的名字很深,标题甚至说“深度强化学习”,但如果你阅读这篇论文,你会发现他们的网络仅使用 2 层。

同样,谷歌和伯克利的研究人员通过深度强化学习学习走路的论文在标题中包含深度强化学习,但如果你阅读这篇论文,你会发现他们使用了 2 个隐藏层。

另一个标题中带有深度 RL 的 SIGGRAPH 项目而且,如果您阅读它,您会惊讶地发现,有 2 个隐藏层。

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor 一文中,如果您阅读带有超参数的表 1,他们还使用了 2 个隐藏层。

将深度 RL 称为任何使用神经网络的 RL 算法是否标准?

2个回答

据我所知,即使深度学习系统(即用梯度下降和反向传播训练的神经网络)取得了几年的成功,对于什么构成深度神经网络还没有达成共识。有些人可以使用具有 2 个隐藏层的神经网络并将其称为深度(就像您的情况一样),但其他人可能只是将形容词deep用于指代具有 10、100 或更多隐藏层的神经网络。事实上,有一些充分的理由将术语“深度”仅与具有大量隐藏层(例如 100 个)的神经网络相关联:例如,如果只有一个隐藏层,通常不会出现梯度爆炸(或消失)问题隐藏层,但很容易出现许多(例如 100 个)隐藏层。

尽管如此,只要层中有足够(但数量有限)的单元(或神经元),具有至少一个隐藏层的神经网络可以逼近任何连续函数。通用逼近定理出于这个原因,我们可以开始将任何这样的神经网络表示为深度,但是,尽管这条规则会排除感知器(它只能近似线性函数,而且无论如何也没有人可能称它们为深度),但这条规则有点多余或无用(即我们可能只是不使用形容词deep开始)。

在您的情况下,作者使用的规则似乎如下:如果它包含的隐藏层数超过了近似任何连续函数的最低限度(即 1),那么我们将其表示为deep

将深度 RL 称为任何使用神经网络的 RL 算法是否标准?

是的,将 RL + 任何 NN 标记为“深度强化学习”似乎已成为标准做法。它不是一个正式的术语。

这个十年开始的整个“深度学习”运动既是一个营销术语,也是一个科学术语。然而,它基于对神经网络架构和训练方法的真正改进的发现

您可能会发现这些较浅的网络中的一些(甚至大部分)将使用过去十年左右设计的改进,并且还与更深的网络相关联,例如 Xavier 初始化、ReLU 激活、Adam 优化器。

作为个人观点,我想说,如果一个已发表的实验只使用 1 或 2 个隐藏层,并且没有利用这些最新进展,那么“深度”标签几乎完全是一种品牌推广活动。这种网络在很久以前就取得了进展。例如,TD-Gammon 论文是 1995 年的。对于 TD-Gammon,作者使用强化学习和一个带有一个隐藏层的 NN 来创建一个比任何人类玩家玩得更好的双陆棋玩家。这远远早于“深度学习”是一个用于描述此类网络的术语,而“深度强化学习”这一术语并没有出现在该论文中。

然而,由于“深度学习”是一个如此宽松的品牌术语,还有一种观点认为,所有这些旧方法,以及几乎所有具有隐藏层的神经网络,都应该包括在内。维基百科对深度学习的定义说:

深度学习是一类机器学习算法,它:

  • 使用级联的多层非线性处理单元进行特征提取和转换。每个连续的层都使用前一层的输出作为输入。
  • 以有监督(例如,分类)和/或无监督(例如,模式分析)的方式学习。
  • 学习对应于不同抽象层次的多层次表示;这些级别形成了概念的层次结构。

使用该定义将包括您引用的所有论文。您不需要 50 层 Resnet 架构即可获得资格。在该定义下,品牌推广活动更有意义,因为新发明的技术使此类系统更加可行且值得投资(时间和精力以及财务上)。