机器算法验证 - 伽玛实际上是衡量强化学习中未来回报的有效方法吗？ - 吾爱随笔录

伽玛实际上是衡量强化学习中未来回报的有效方法吗？

机器算法验证机器学习神经网络马尔科夫过程强化学习

2022-03-25 00:20:17

通常，折扣的奖励总和定义如下：

G_t = Sum(gamma ** n * reward_t...)

但这意味着奖励在每个时间步长上的价值都呈指数级下降。让奖励权重看起来像这样不是更有意义吗？

所以我们t + n在未来最大化奖励，而不是试图最大化奖励，t + 1然后指数衰减权重？

g ** n与奖励加权的任何其他功能相比，奖励加权背后的直觉或推理是什么？

1个回答

指数贴现是“时间一致的”，而其他形式的贴现则不是。例如，与 $\gamma = 0.9$ ，您希望今天获得 1 个奖励而不是明天获得 1 个奖励，以及 10 天获得 1 个奖励而不是 11 天获得 1 个奖励。您还希望明天获得 2 份奖励而不是今天获得 1 份奖励，以及 11 天内获得 2 份奖励而不是 10 天内获得 1 份奖励。

在您的计划下，您似乎更喜欢明天的奖励而不是今天的奖励，但您更愿意在 10 天内获得 1 奖励而不是在 11 天内获得 1 奖励。您可能更喜欢今天的 1 个奖励而不是明天的 2 个奖励，但 11 天内 2 次而不是 10 天内 1 次。

因此，根据某物的距离，您对相同问题的回答不同，这有点奇怪。如果获得这些奖励需要更长期的计划和准备，你可能会发现自己花了几天时间准备做 X，只是后来改变主意，把它全部扔掉去做 Y。

指数折扣的另一种流行替代方法是双曲线折扣，据推测这是人类使用的。然而，这也不是时间一致的。

实际上，使用替代折扣函数有点不重要，因为许多强化学习算法的基础贝尔曼方程假设指数折扣。Fedus 等人表明，您可以调整一些东西以使双曲线贴现与 Q-learning 一起工作。

指数折扣的另一个实际原因是它会收敛，而奖励的双曲线和可能会发散到无穷大。因此，它使理论分析变得很好。

其它你可能感兴趣的问题

上一篇可以使用时间序列的长期方差来测试序列的均值吗？下一篇是否应该使用 Hausman 检验来决定固定效应与随机效应之间的关系？