在强化学习中调整的最佳超参数是什么?

人工智能 强化学习 深度学习 超参数优化 超参数 近端策略优化
2021-11-10 15:54:13

显然,这有点主观,但哪些超参数通常对 RL 智能体的学习能力影响最大?例如,回放缓冲区大小、学习率、熵系数等。

例如,在“正常”ML 中,批量大小和学习率通常是首先得到优化的主要超参数。

具体来说,我使用的是 PPO,但这也可能适用于许多其他 RL 算法。

2个回答

就个人而言,我会选择以下两个作为最重要的:

  • epsilon:当使用 epsilon-greedy 策略时,epsilon 确定代理应该探索的频率以及应该利用的频率。平衡探索和利用对于学习代理的成功至关重要。太少的探索可能不会教给代理任何东西,太多的探索可能只会浪费你的时间。
  • 学习率:学习率决定了你从新的经验状态中学习的速度。当环境具有许多具有高概率负奖励的状态(即许多惩罚)时,过高的学习率可能不好。这可能会使您的代理在同一个地方来回移动以避免受到处罚。此外,过低的学习率可能会使您的代理学习非常缓慢,并且根据您的 epsilon,代理可能会进入一个对最优策略知之甚少的利用阶段。

您应该阅读这项研究https://arxiv.org/abs/2006.05990,它对这个问题进行了一些实证研究,特别是针对政策上的连续行动空间 DRL。

它表明折扣因子和学习率是需要调整的两个最重要的参数,其次是策略/价值函数的宽度。

该研究还报告说,对观察结果进行归一化非常重要,并初始化策略以使初始动作为零均值且方差非常小。