显然,这有点主观,但哪些超参数通常对 RL 智能体的学习能力影响最大?例如,回放缓冲区大小、学习率、熵系数等。
例如,在“正常”ML 中,批量大小和学习率通常是首先得到优化的主要超参数。
具体来说,我使用的是 PPO,但这也可能适用于许多其他 RL 算法。
显然,这有点主观,但哪些超参数通常对 RL 智能体的学习能力影响最大?例如,回放缓冲区大小、学习率、熵系数等。
例如,在“正常”ML 中,批量大小和学习率通常是首先得到优化的主要超参数。
具体来说,我使用的是 PPO,但这也可能适用于许多其他 RL 算法。
就个人而言,我会选择以下两个作为最重要的:
您应该阅读这项研究https://arxiv.org/abs/2006.05990,它对这个问题进行了一些实证研究,特别是针对政策上的连续行动空间 DRL。
它表明折扣因子和学习率是需要调整的两个最重要的参数,其次是策略/价值函数的宽度。
该研究还报告说,对观察结果进行归一化非常重要,并初始化策略以使初始动作为零均值且方差非常小。