数据挖掘 - 专门为 RL 选择一些神经元 - 吾爱随笔录

专门为 RL 选择一些神经元

数据挖掘强化学习

2021-09-16 10:10:33

如果我想使用 DQN 来训练我的强化学习代理，我该如何选择神经元的数量？

在监督学习中，选择太少或太多都可能导致潜力过低（缺乏神经元）或由于过度拟合（例如，由于神经元过多）而导致泛化能力差。我们可以使用遗传算法来确定超参数的最佳组合，而不是手动尝试。

然而，在强化学习中——泛化甚至是一件事吗？毕竟，我们正在训练蜘蛛以最有效的方式移动四肢来奔跑，以最快的方式抓住盒子的手臂等等。

一旦学会了，我们甚至可以改变环境并期望智能体表现良好，推广到新环境吗？

因此，对于 RL 来说，选择神经元是否是一件事情，或者我们可以给它尽可能多的神经元和层数，让它学习生物四肢的正确运动吗？

1个回答

诸如 DQN 之类的深度强化学习 (DRL) 方法将深度学习作为一种不昂贵的大内存。神经网络以有监督的方式学习以提供良好的估计；DQN 也不例外。

DQN 中神经网络的超参数优化类似于全监督学习。您应该尝试各种超参数[层数、神经元等]，直到获得一个好的解决方案。

进化算法可以帮助你找到合适的超参数。最近有一些发表的论文报道了使用进化算法来训练 RL 中的神经网络。

我们是否允许改变环境并期望代理表现良好，推广到新环境？

是的，DQN 的主要思想是允许泛化，参见 DeepMind 的出版物，例如 [1]。并且可以推广到看不见的环境：参见 [2]、[3]

正如您在文献中看到的那样，概括的边界因一部作品而异。泛化可能意味着在同一环境中为不同实验表现良好的能力。一些研究人员致力于构建更难以泛化到看不见的环境的代理，在这种情况下，神经网络的设计和强化学习算法在确定泛化能力方面起着重要作用。

选择神经元甚至是 RL 的事情，我们可以给它尽可能多的神经元和层数，让它学习生物四肢的正确运动吗？

泛化是一个问题，大量的神经元可以过拟合（不能很好地泛化）DQN 涉及神经网络以允许泛化。神经网络泛化到新案例（和新实验/环境）的能力取决于神经网络提供的近似值，该近似值取决于神经网络参数和超参数。

对于构建一个巨大的神经网络：作为一个概念，您可以增加神经网络的深度以获得更好的结果。然而，问题是你有足够的数据吗？在 RL 语言中，您需要更多不同的示例来训练更大的网络。从理论上讲，拥有无限数量的不同实验/环境的无限神经网络将导致最好的结果。然而，我们没有足够的耐心等待很长的训练时间，而且很可能你没有大量不同的环境/实验来教授神经网络。因此，执行此操作的标准方法是从一个小型网络（少量神经元和 1 或 2 层）开始并对其进行训练，然后逐步扩展它，并在网络不能很好地泛化时停止。

你可以把神经网络的大小想象成一个水箱，只要你有大量的水（实验）你需要更大的水箱来占据它。没有足够数量的学习实验的大型网络会导致更糟糕的结果，特别是当代理面临新的未知实验时。

：[1] https://web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf

:[2] https://www.semanticscholar.org/paper/Virtual-to-real-deep-reinforcement-learning%3A-of-for-Tai-Paolo/494af0cedf1abb2454d457d0a89e21b983233276

：[3] https://arxiv.org/pdf/1612.05533.pdf

其它你可能感兴趣的问题

上一篇什么是光谱聚类？下一篇如何理解混淆矩阵