我指的是 Value 函数中的 gamma:
如何在马尔可夫决策问题中选择折扣因子?
数据挖掘
机器学习
马尔科夫过程
2021-10-09 15:25:01
3个回答
这是强化学习的典型价值函数。折扣因子评估累积的未来事件在您当前价值中的重要性。数字越小,当前动作中的未来事件越不重要。
通常这个数字是启发式选择的。我通常选择0.9。如果我不想要任何折扣,那么我会选择 1。
是强化学习算法的超参数,因此您可以应用网格搜索或贝叶斯优化等超参数优化技术。
没有可能的一般建议,因为这取决于您要解决的问题。但是,如果您的奖励非常稀少,您可能需要接近 1 的值
选择折扣系数取决于问题。正如Sutton & Barto所解释的,该值始终介于 0 和 1 之间:. 如果该策略将是贪婪的,即它只会为当前状态选择最佳动作。而如果然后(可能的)未来奖励将被考虑在内。什么时候 那么只要奖励序列是有界的,那么无限和就是有限的。
正如在这个相关答案中所评论的那样,具有更高的 该策略针对进一步的收益进行了优化,但需要更多时间才能收敛。