附加奖励和折扣奖励有什么区别?
附加奖励和折扣奖励之间的主要区别是什么?
人工智能
强化学习
比较
奖励
奖励剪辑
2021-10-28 12:55:03
2个回答
我会稍微不同意@mico。有一种“附加奖励”的用法,指的是可分解的奖励功能(例如,我出售我不想拥有的物品的奖励包括不再拥有不需要的物品的奖励,加上出售物品的金钱收益)。但是,加性奖励和折扣奖励之间确实存在根本关系。加性奖励可以简单地表述为
而折扣奖励包括折扣因素这样
直观地说,一系列状态的加性奖励只是在每个状态获得的奖励的总和,而折扣奖励包括一个乘法折扣因子,随着时间的推移减少奖励的影响。您通常会看到有限范围问题的附加奖励,即您有离散数量的时间步进行优化,而折扣奖励与无限范围问题更相关,即您可能需要优化无限数量的时间步(或至少是一个非常大的数字)。折扣因子控制智能体获得即时奖励的贪婪程度,其中非常小的折扣因子(接近于 0)鼓励智能体只在最近的状态中寻求奖励,
对于这种区别,我发现的最直接的参考资料是这些课程幻灯片,它们具有一定的权威性,因为它们来自 Andrew Barto,他是关于强化学习的事实文本的合著者。
折扣奖励有其相反的未折扣奖励。它们之间的区别在于,打折的乘数 gamma != 1 和未打折的 gamma = 1。 Gamma 告诉乘数,在下一次迭代中对先前值的值有多少。[1]
Additive 指的是不同的东西,在 [2] 中找到了一个注释:
加性奖励函数将奖励分解为多个贡献,并且可以表示为(非分区)MPA。
这段简短的摘录并没有透露很多内容,但这是我能找到的唯一对我有意义的。我确实可以发现,尽管它们在名称上看起来相似的概念,但它们在本质上却完全不同。
资料来源:
[1] https://en.wikipedia.org/wiki/Reinforcement_learning
[2] 自适应行为的逻辑:一阶和关系域不确定性下自适应顺序决策的知识表示和算法。- M. Van
其它你可能感兴趣的问题