如果我想使用 DQN 来训练我的强化学习代理,我该如何选择神经元的数量?
在监督学习中,选择太少或太多都可能导致潜力过低(缺乏神经元)或由于过度拟合(例如,由于神经元过多)而导致泛化能力差。我们可以使用遗传算法来确定超参数的最佳组合,而不是手动尝试。
然而,在强化学习中——泛化甚至是一件事吗?毕竟,我们正在训练蜘蛛以最有效的方式移动四肢来奔跑,以最快的方式抓住盒子的手臂等等。
一旦学会了,我们甚至可以改变环境并期望智能体表现良好,推广到新环境吗?
因此,对于 RL 来说,选择神经元是否是一件事情,或者我们可以给它尽可能多的神经元和层数,让它学习生物四肢的正确运动吗?