强化学习中的正负奖励之间是否存在良好的比例?

人工智能 强化学习 奖励
2021-10-19 07:16:10

在强化学习中,正面奖励和负面奖励之间是否存在理想的比例?

假设我有一个让机器人过河的场景。有两种选择,步行过桥或步行过河。如果它过河,那么机器人就会断裂,所以这个想法是加强机器人过桥的能力。什么是最好的奖励价值?这个比率是否因情况而异?

option1:

Bridge: +10
River: -10

Option2:

Bridge: +10
River: -1

Option3:

Bridge: +1
River: -10
2个回答

没有硬性规定。您的奖励应该能够激励代理以最有效的方式实现目标。在网格世界中,如果您希望代理更快地达到目标状态,但移动奖励 +2,达到目标奖励 +5,那么您的代理可能只是四处游荡,永远不会达到目标。但是,如果您为每一步设置奖励 -1 并为达到目标设置 +1 或 +10(甚至 0),那么您的代理将学会更快地达到目标状态。

这通常无关紧要,但我确信在某些情况下它可能很重要。理论上,如果对良好行为的奖励高于对不良行为的奖励,那么神经网络将被训练为优先选择较高的奖励,即使这些较高的奖励是负面的。例如,如果一个不好的奖励是-100,那么一个相对好的奖励可能是-50,那么网络将更有可能选择奖励-50的动作而不是奖励-100的动作。