在强化学习中,终端/目标状态的值总是为零吗?

人工智能 强化学习 环境 价值函数
2021-11-01 17:58:42

假设我们在一个3×3状态编号为的网格世界0,1,,8. 假设目标状态是8,降落在目标状态的奖励为10,而只是在网格世界中闲逛的奖励是0. 是状态的状态值8总是0?

1个回答

在强化学习中,终端/目标状态的值总是为零吗?

是的,对于偶发性问题,根据定义,终止状态的值始终为零。

一个国家的价值v(s)是来自所有未来时间步的奖励的预期总和(可能是折扣的) 。处于终止状态时没有未来的时间步长,因此该总和必须为零。

为了数学符号的一致性,您可以将终端状态视为“吸收”,即任何离开它的转换都会导致零奖励并返回到相同的终端状态。然后你可以使用值函数的定义来展示同样的东西:

vπ(s)=Eπ[k=0γkRt+k+1|St=s]

如果s=sT,终端状态,然后是所有“未来的奖励”k=0从奖励开始Rt+1必须为零。这与奖励一致Rt,即转换终端状态时的奖励,为任意值。

如果您在终端状态下接受“空”操作,您可以使用操作值函数显示类似的内容。