如何在马尔可夫决策问题中选择折扣因子?

数据挖掘 机器学习 马尔科夫过程
2021-10-09 15:25:01

我指的是 Value 函数中的 gamma:

3个回答

这是强化学习的典型价值函数。折扣因子评估累积的未来事件在您当前价值中的重要性。数字越小,当前动作中的未来事件越不重要。

通常这个数字是启发式选择的。我通常选择0.9。如果我不想要任何折扣,那么我会选择 1。

γ是强化学习算法的超参数,因此您可以应用网格搜索或贝叶斯优化等超参数优化技术。

没有可能的一般建议,因为这取决于您要解决的问题。但是,如果您的奖励非常稀少,您可能需要接近 1 的值

选择折扣系数γ取决于问题。正如Sutton & Barto所解释的,该值始终介于 0 和 1 之间:0<=γ<=1.0. 如果γ=0该策略将是贪婪的,即它只会为当前状态选择最佳动作。而如果γ>0然后(可能的)未来奖励将被考虑在内。什么时候γ<1 那么只要奖励序列是有界的,那么无限和就是有限的。

正如在这个相关答案中所评论的那样,具有更高的γ 该策略针对进一步的收益进行了优化,但需要更多时间才能收敛。