专门为 RL 选择一些神经元

数据挖掘 强化学习
2021-09-16 10:10:33

如果我想使用 DQN 来训练我的强化学习代理,我该如何选择神经元的数量?

在监督学习中,选择太少或太多都可能导致潜力过低(缺乏神经元)或由于过度拟合(例如,由于神经元过多)而导致泛化能力差。我们可以使用遗传算法来确定超参数的最佳组合,而不是手动尝试。

然而,在强化学习中——泛化甚至是一件事吗?毕竟,我们正在训练蜘蛛以最有效的方式移动四肢来奔跑,以最快的方式抓住盒子的手臂等等。

一旦学会了,我们甚至可以改变环境并期望智能体表现良好,推广到新环境吗?

因此,对于 RL 来说,选择神经元是否是一件事情,或者我们可以给它尽可能多的神经元和层数,让它学习生物四肢的正确运动吗?

1个回答

诸如 DQN 之类的深度强化学习 (DRL) 方法将深度学习作为一种不昂贵的大内存。神经网络以有监督的方式学习以提供良好的估计;DQN 也不例外。

DQN 中神经网络的超参数优化类似于全监督学习。您应该尝试各种超参数[层数、神经元等],直到获得一个好的解决方案。

进化算法可以帮助你找到合适的超参数。最近有一些发表的论文报道了使用进化算法来训练 RL 中的神经网络。

  • 我们是否允许改变环境并期望代理表现良好,推广到新环境?

是的,DQN 的主要思想是允许泛化,参见 DeepMind 的出版物,例如 [1]。并且可以推广到看不见的环境:参见 [2]、[3]

正如您在文献中看到的那样,概括的边界因一部作品而异。泛化可能意味着在同一环境中为不同实验表现良好的能力。一些研究人员致力于构建更难以泛化到看不见的环境的代理,在这种情况下,神经网络的设计和强化学习算法在确定泛化能力方面起着重要作用。

  • 选择神经元甚至是 RL 的事情,我们可以给它尽可能多的神经元和层数,让它学习生物四肢的正确运动吗?

泛化是一个问题,大量的神经元可以过拟合(不能很好地泛化)DQN 涉及神经网络以允许泛化。神经网络泛化到新案例(和新实验/环境)的能力取决于神经网络提供的近似值,该近似值取决于神经网络参数和超参数。

对于构建一个巨大的神经网络:作为一个概念,您可以增加神经网络的深度以获得更好的结果。然而,问题是你有足够的数据吗?在 RL 语言中,您需要更多不同的示例来训练更大的网络。从理论上讲,拥有无限数量的不同实验/环境的无限神经网络将导致最好的结果。然而,我们没有足够的耐心等待很长的训练时间,而且很可能你没有大量不同的环境/实验来教授神经网络。因此,执行此操作的标准方法是从一个小型网络(少量神经元和 1 或 2 层)开始并对其进行训练,然后逐步扩展它,并在网络不能很好地泛化时停止。

你可以把神经网络的大小想象成一个水箱,只要你有大量的水(实验)你需要更大的水箱来占据它。没有足够数量的学习实验的大型网络会导致更糟糕的结果,特别是当代理面临新的未知实验时。

:[1] https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf

:[2] https://www.semanticscholar.org/paper/Virtual-to-real-deep-reinforcement-learning%3A-of-for-Tai-Paolo/494af0cedf1abb2454d457d0a89e21b983233276

:[3] https://arxiv.org/pdf/1612.05533.pdf