数据挖掘 - 如何在马尔可夫决策问题中选择折扣因子？ - 吾爱随笔录

如何在马尔可夫决策问题中选择折扣因子？

数据挖掘机器学习马尔科夫过程

2021-10-09 15:25:01

我指的是 Value 函数中的 gamma：

3个回答

这是强化学习的典型价值函数。折扣因子评估累积的未来事件在您当前价值中的重要性。数字越小，当前动作中的未来事件越不重要。

通常这个数字是启发式选择的。我通常选择0.9。如果我不想要任何折扣，那么我会选择 1。

$\gamma$ 是强化学习算法的超参数，因此您可以应用网格搜索或贝叶斯优化等超参数优化技术。

没有可能的一般建议，因为这取决于您要解决的问题。但是，如果您的奖励非常稀少，您可能需要接近 1 的值

选择折扣系数 $\gamma$ 取决于问题。正如Sutton & Barto所解释的，该值始终介于 0 和 1 之间： $0<=\gamma<=1.0$ . 如果 $\gamma=0$ 该策略将是贪婪的，即它只会为当前状态选择最佳动作。而如果 $\gamma>0$ 然后（可能的）未来奖励将被考虑在内。什么时候 $\gamma<1$ 那么只要奖励序列是有界的，那么无限和就是有限的。

正如在这个相关答案中所评论的那样，具有更高的 $\gamma$ 该策略针对进一步的收益进行了优化，但需要更多时间才能收敛。

其它你可能感兴趣的问题

上一篇神经网络：我可以同时使用 sigmoid 和 tanh 作为激活函数吗？下一篇SPARK Mllib：多类逻辑回归，如何获得所有类的概率而不是顶部的概率？