假设我们在一个状态编号为的网格世界. 假设目标状态是,降落在目标状态的奖励为,而只是在网格世界中闲逛的奖励是. 是状态的状态值总是?
在强化学习中,终端/目标状态的值总是为零吗?
人工智能
强化学习
环境
价值函数
2021-11-01 17:58:42
1个回答
在强化学习中,终端/目标状态的值总是为零吗?
是的,对于偶发性问题,根据定义,终止状态的值始终为零。
一个国家的价值是来自所有未来时间步的奖励的预期总和(可能是折扣的) 。处于终止状态时没有未来的时间步长,因此该总和必须为零。
为了数学符号的一致性,您可以将终端状态视为“吸收”,即任何离开它的转换都会导致零奖励并返回到相同的终端状态。然后你可以使用值函数的定义来展示同样的东西:
如果,终端状态,然后是所有“未来的奖励”从奖励开始必须为零。这与奖励一致,即转换到终端状态时的奖励,为任意值。
如果您在终端状态下接受“空”操作,您可以使用操作值函数显示类似的内容。